2021年2月11日 星期四

[工程應用]統計應用心得_分布間的交集區域

在工廠中常需要使用檢測工具判定產品是屬於良品或不良,此時最頭痛的問題在於設定判定閥值


從群組差異出發

日常生活中,直覺表述物體特徵的差異,敘述上經常是很主觀的,並且帶有偏誤,比方說:

• 我在動物園看過,豹有花紋,獅子沒花紋,因此豹跟獅子長得不一樣,

❌以偏概全,兩隻代表全部過於牽強,萬一他們是特例?

• 我感覺這兩個鄉鎮的風景不太一樣

❌未有數據化界線,差異到多少才叫不一樣?

遇到主觀判定就要用科學破解,使用統計技術就是嘗試以數字客觀陳述"不一樣"的概念。

首先破解"以偏概全",只用1、2個數據要證明差異難以服眾,必須要舉出具有一定數量的統計值來說明兩個群體的特徵,大量的統計數據被消化後會只留下幾個指標描述群體,最經典的模型是常態分佈:群體特徵可用中心值$\mu$、標準差$\sigma$表示

再來思考何謂群體間的"不一樣",兩群組平均值要差的多遠才能叫做不一樣?假想以下狀況:


兩個統計數據$f_A(x)$、$f_B(x)$的平均值肉眼上看來確實有差,但交集區域白色斜線部分好像有點大?在交集區域內的數值到底該算是群組$f_A(x)$還是群組$f_B(x)$?比方說1到底屬於$f_A(x)$還是$f_B(x)$?

落在兩個散佈範圍的交集區域也就是模糊地帶,從這案例中可以認知到,即使平均值夠遠,不夠集中的數據組,使得標準差變大,也還是能讓模糊地帶變大。

一旦落在模糊地帶變大,無法有效歸類的數據也會變多,歸類難度跟著提高。

分析分布交集區

我們可以分析交集區域,計算出難以辨識的數據在群體中佔了多少比例,當$f_A(x)$、$f_B(x)$常態分佈離的足夠遠,理應會有一個交集點$X_i$,從交集點可以估計出$f_A(x)$中$X_i$右翼的分佈面積,以及$f_B(x)$中$X_i$左翼的分佈面積;計算流程概略上會是:

  1. 解$X_i$,使得$f_A(X_i)=f_B(X_i)$
  2. 評估$X_i$離${\mu}_A$幾個${\sigma}_A$標準差遠,此評估值也就是Z值;接著可以查Z值表、或是累積分佈函數得$f_A(x)$右翼面積比例
  3. 同2.評估$f_B(x)$左翼面積比例


註記:由於$f_A(x)$、$f_B(x)$兩者的標準差一樣,造成重疊區對稱,所以左右翼面積相同,若標準差不一樣會得到不對稱的交集區域

以這個案例來說,把A、B組的數據混在一起看的話,約有30%的數據難以歸類。

閥值設定情境

如果我們把判定閥值切在離$f_A(x)$中心值右方2個標準差遠的地方,對$f_A(x)$來說有95.45%的案例都會被判定成NG,而對$f_B(x)$來說,如上面所計算的左翼,將會有50%的案例被判定為不良;如果我們說$f_B(x)$是良品樣品組,這種狀況相當於是過殺(Overkill)-50%能被出貨的產品可能被送進了垃圾桶:



反過來說,如果我們把判定閥值切在離$f_B(x)$中心值左方2個標準差遠的地方,對$f_B(x)$來說有95.45%的案例都會被判定成OK,而對$f_A(x)$來說,如上面所計算的右翼,有50%的不良品被算進良品,變成是漏殺(Underkill):



漏殺誤殺該如何權衡就得視狀況而定了,在消費型電子領域或是成本至上主義或許能允許一定程度了漏殺,若在醫材領域,由於牽扯到人身安全,可能就得戰戰兢兢設定為將近0漏殺 - 犧牲邊緣值良品換得絕對品質。

若閥值怎麼設定都讓品質、成本不滿意,就得回頭檢討檢測工具的問題,像是上面的例子,荒唐的50%過殺誤殺率,30%的數據難以歸類,根因是重疊區域太大,可從兩方面進行檢討:

1. 拉大均值差異,加強檢測敏感度,根本檢討檢測方法、檢測方法是否適當。

2. 降低標準差,加強檢測重現性(Repeatablity),審視各種環境因子、檢測設備穩定性。

檢測工具檢討完畢,製程端做的進允收標準嗎?這又是另外一段故事了,至少從交集分析出發,有了數據指引,開始有系統的討論。

後記:推薦將函式繪圖的Web-Based軟體 - desmos

沒有留言:

張貼留言