吾勤的勤書: [工程應用]統計應用心得

在工廠中常需要使用檢測工具判定產品是屬於良品或不良，此時最頭痛的問題在於設定判定閥值

從群組差異出發

日常生活中，直覺表述物體特徵的差異，敘述上經常是很主觀的，並且帶有偏誤，比方說：

• 我在動物園看過，豹有花紋，獅子沒花紋，因此豹跟獅子長得不一樣，

❌以偏概全，兩隻代表全部過於牽強，萬一他們是特例？

• 我感覺這兩個鄉鎮的風景不太一樣

❌未有數據化界線，差異到多少才叫不一樣？

遇到主觀判定就要用科學破解，使用統計技術就是嘗試以數字客觀陳述"不一樣"的概念。

首先破解"以偏概全"，只用1、2個數據要證明差異難以服眾，必須要舉出具有一定數量的統計值來說明兩個群體的特徵，大量的統計數據被消化後會只留下幾個指標描述群體，最經典的模型是常態分佈：群體特徵可用中心值$\mu$、標準差$\sigma$表示

再來思考何謂群體間的"不一樣"，兩群組平均值要差的多遠才能叫做不一樣？假想以下狀況：

兩個統計數據$f_A(x)$、$f_B(x)$的平均值肉眼上看來確實有差，但交集區域白色斜線部分好像有點大？在交集區域內的數值到底該算是群組$f_A(x)$還是群組$f_B(x)$？比方說1到底屬於$f_A(x)$還是$f_B(x)$?

落在兩個散佈範圍的交集區域也就是模糊地帶，從這案例中可以認知到，即使平均值夠遠，不夠集中的數據組，使得標準差變大，也還是能讓模糊地帶變大。

一旦落在模糊地帶變大，無法有效歸類的數據也會變多，歸類難度跟著提高。

分析分布交集區

我們可以分析交集區域，計算出難以辨識的數據在群體中佔了多少比例，當$f_A(x)$、$f_B(x)$常態分佈離的足夠遠，理應會有一個交集點$X_i$，從交集點可以估計出$f_A(x)$中$X_i$右翼的分佈面積，以及$f_B(x)$中$X_i$左翼的分佈面積；計算流程概略上會是：

解$X_i$，使得$f_A(X_i)=f_B(X_i)$
評估$X_i$離${\mu}_A$幾個${\sigma}_A$標準差遠，此評估值也就是Z值；接著可以查Z值表、或是累積分佈函數得$f_A(x)$右翼面積比例
同2.評估$f_B(x)$左翼面積比例

註記：由於$f_A(x)$、$f_B(x)$兩者的標準差一樣，造成重疊區對稱，所以左右翼面積相同，若標準差不一樣會得到不對稱的交集區域

以這個案例來說，把A、B組的數據混在一起看的話，約有30%的數據難以歸類。

閥值設定情境

如果我們把判定閥值切在離$f_A(x)$中心值右方2個標準差遠的地方，對$f_A(x)$來說有95.45%的案例都會被判定成NG，而對$f_B(x)$來說，如上面所計算的左翼，將會有50%的案例被判定為不良；如果我們說$f_B(x)$是良品樣品組，這種狀況相當於是過殺（Overkill）-50%能被出貨的產品可能被送進了垃圾桶：

反過來說，如果我們把判定閥值切在離$f_B(x)$中心值左方2個標準差遠的地方，對$f_B(x)$來說有95.45%的案例都會被判定成OK，而對$f_A(x)$來說，如上面所計算的右翼，有50%的不良品被算進良品，變成是漏殺（Underkill）：

漏殺誤殺該如何權衡就得視狀況而定了，在消費型電子領域或是成本至上主義或許能允許一定程度了漏殺，若在醫材領域，由於牽扯到人身安全，可能就得戰戰兢兢設定為將近0漏殺 - 犧牲邊緣值良品換得絕對品質。

若閥值怎麼設定都讓品質、成本不滿意，就得回頭檢討檢測工具的問題，像是上面的例子，荒唐的50%過殺誤殺率，30%的數據難以歸類，根因是重疊區域太大，可從兩方面進行檢討：

1. 拉大均值差異，加強檢測敏感度，根本檢討檢測方法、檢測方法是否適當。

2. 降低標準差，加強檢測重現性（Repeatablity），審視各種環境因子、檢測設備穩定性。

檢測工具檢討完畢，製程端做的進允收標準嗎？這又是另外一段故事了，至少從交集分析出發，有了數據指引，開始有系統的討論。

後記：推薦將函式繪圖的Web-Based軟體 - desmos

吾勤的勤書

2021年2月11日星期四

[工程應用]統計應用心得_分布間的交集區域

從群組差異出發

分析分布交集區

閥值設定情境

沒有留言:

張貼留言

2021年2月11日 星期四

[工程應用]統計應用心得_分布間的交集區域

從群組差異出發

分析分布交集區

閥值設定情境

沒有留言:

張貼留言

2021年2月11日星期四