常見視覺辨識任務
- Objection Detection
- Objection localization
- VQA(Visual Question Answering)
Challenges && Nearest Neighbor Classifier
參考cs231n Image Classification
Simple object recognition pipeline
參考 paper:Analyzing Appearance and Contour Based Methods for Object Categorization
建造一個架構,用來辨識影像,輸入影像後會輸出對應類別結果
訓練架構
訓練階段重點:
- 訓練資料:輸入的訓練影像與標記類別
- 定義要擷取的影像特徵
- 訓練方法
訓練資料
dataset:ETH-80 dataset
- 共有八類,每類41張影像,共有3280張影像
- 解析度1024 * 768
- 但網路上找到的dataset並沒有到達這麼高的解析度(256 * 256)
影像特徵
提到了幾個特徵提取方法
- Global RGB histogram
- 整體形狀分析:PCA-based methods
- 局部形狀特徵:shape context
- 紋理:Filter banks
訓練方法
可使用KNN classifier