cs131 lecture 14 Detecting Objects by Parts-Object detection task and evaluation

物件檢測是視覺中常見的任務之一，在影像中透過各種演算法來偵測到物件位置，常見的檢測如找到物件位置，並用矩形框標註，更精細一點的可以分割出物件的輪廓，其中會遇到的挑戰:

因此為了測試演算法在不同類別上都能有強大的適應性，網路上有多種不同的大型影像資料庫，並附上物件的位置、類別資訊來進行驗證，以下介紹常見的影像資料庫PASCAL VOC、ImageNet、COCO

Benchmarks

網頁上有每一年的資料更動，起初只有四個類別，1578張影像，比賽方式為檢測與分類

經過多年的資料量擴增，變為20個類別，含有11530張影像，並且有27450個ROI影像與6929個更精細的分割影像區域，並加入影像分割挑戰
競賽從2005年到2012年停止

ImageNet是一個提供所有研究人員進行大規模影像辨識模型的資料庫，資料庫內以手動標註了1400多萬張影像，並包含2萬多個類別，實際進行挑戰時會整理出1000類來進行比賽

其中ImageNet的標記類別是根據WordNet的結構，WordNet可以想成是一個辭典，這個辭典把相近意義的同義詞連結再一起，成為一個網路架構

引用YOLO9000的圖來說明，WordNet結構是一個樹狀結構，一個節點下有多個子節點，例如飛機節點，下面有雙翼飛機、噴射機、空中巴士、隱形戰鬥機，因此在ImageNet中看到這些標記類別，都可以視為飛機類別

paperswithcode ImageNet object detection
的數據可以看到歷年來ImageNet影像分類比賽準確率的模型

COCO dataset也是一個大型物件檢測、影像分割的一個資料集，他的特點參考官網介紹:

在物件檢測中，常使用precision, recall來評估模型
講到precision, recall前先介紹混淆矩陣與真陽TP、真陰TN、偽陽FP、偽陰FN

precision, recall公式:

precision公式意義:預測的為正樣本的結果中，預測正確的比率，稱為準確率

recll公式意義:取出所有正樣本結果，實際預測多少正樣本的比例，稱為召回率

以垃圾郵件分類器來舉例precision, recall數值高低的關係

垃圾郵件資料為正樣本, 不是垃圾郵件的資料為負樣本

分類器的precision高, recall高, 代表這模型非常棒, 具有濾除垃圾郵件的能力

precision高, recall低, 代表這模型預估是垃圾郵件的正確率很高, 但實際抓到垃圾郵件的數量少, 是謹慎的模型

precision低, recall高, 代表這模型垃圾郵件幾乎都有抓到, 但誤判率高, 是寬鬆的模型

precision低, recall低, 這模型沒用了

好的模型是具有高準確率，又有高召回率，因此可以使用我兩個都要的F-score指標

$\beta$ 值用來控制precision與recall之間的權重， $\beta$ 值越高，precision的結果就比較重要