yanzzzz blog

cs131 lecture 5 Features And Fitting-RANSAC

Posted on 2021-02-28 Edited on 2023-09-01 In course Views:

線段檢測的難題

會有雜訊干擾
如何找到一條局部斷裂的線
由 noise 干擾導致檢測方向偏移

回顧投票法

蠻力投票法，時間複雜度$ O(N^2) $
投票法可以讓所有模型通用
- 循環所有參數，取得投票結果
- 選出高票參數結果
雜訊所產生的線段也會被納入投票的參數中，但通常結果會與我們想要的預期不符

RANSAC

RANdom SAmple Consensus，隨機抽樣一致
將資料分成 inliers(正常數據), outliers(異常數據)
RANSAC 目標：濾除異常數據，使用正常的數據進行檢測

直覺來看，在線段檢測中，若選擇的 edge 是 outliers 進行擬合時，其他點應該不會在所擬合的線段上

隨機選取兩點得到直線後，藍色點為靠近線段的 inliers，紫色點為遠離線段的 outliers

RANSAC 流程

循環 k 次迭代：

在一組資料集中(ex:edge 點座標)隨機選擇要執行模型評估的最小數據集(ex:直線偵測下是兩個點)
代入選擇的數據集來計算數據模型
尋找此模型內的 inliers 數量
比較當前模型結果與目前最佳模型結果數量，紀錄最大 inliers 數量與對應模型結果
重新估算迭代次數 k

如何設定參數 k

參數符號定義：

假設$n$是建立模型所需的點數量(已知，ex:直線擬合需要兩點)
$w$ 是 inliers 的數量/數據集的總數量(未知)
$w^n$是所有$n$個點均為是 inliers 的機率
$1-w^n$是所有$n$個點有一個是 outliers 的機率
迭代$k$次都沒辦法找到所有點是 inliers 的機率$(1-w^n)^k$
迭代$k$次所有點是 inliers 的機率$1-(1-w^n)^k$

選擇較高的迭代次數$k$來讓找到 inliers 的機率提高

假設演算法跑完$k$次成功機率為$p$

$1-p = (1-w^n)^k$

$p = 1-(1-w^n)^k$

$當n不變時、k越大、p越大，其中p自行定義$

更新迭代次數$k$公式：

$k=\frac{log(1-p)}{log(1-w^n)}$

改善 RANSAC 效率方法：

先對資料集進行最小二乘法得到不錯的模型(全局最佳化)，再進行 RANSAC(本地最佳化)

RANSAC 優缺點：

優點
- 通用方法適合各種擬合問題
- 好實現
缺點
- 對於資料集中 outliers 數量變多時，時間成本會大幅提升，真實問題通常都有較大佔比的 outliers(可能的解決方法：隨機選擇資料集中的子集合)
- 非確定性算法：每次跑完結果可能不一樣，但會在一定機率下跑出合理的結果

參考

RANSAC 算法详解(附 Python 拟合直线模型代码)
随机抽样一致(Random Sample Consensus, RANSAC)

cs131 lecture 4 Edge Detection

Posted on 2021-02-21 Edited on 2023-09-01 In course Views:

edge 的重要性

大部分的形狀等資訊可以從邊緣分析出來
用 edge 來提取資訊、辨識物件
回復幾何形狀與消失點(vanishing point)

edge 產生原因

表面法向不連續性(Surface normal discontinuity)：區塊內看到多個不同角度的表面
深度不連續性 (Depth discontinuity)：由物體前後距離不一所產生邊緣
表面顏色不連續性 (Surface color discontinuity)：物體改變顏色，例如材質顏色改變
亮度不連續性 (Illumination discontinuity)：陰影，光線亮度變化

邊緣檢測在一階微分應用

edge detection Using First/Second Derivative

透過一階微分找出亮度變化大的地方

First Derivative

1D function：

2D function：

轉換成 2D mask/filter

gradient vector：對 x,y 方向進行偏微分，也就是用上述兩個 Gx, Gy 的 mask 個別對影像進行 convolution
gradient magnitude：透過 x,y 方向梯度的加總得到最終梯度強度
gradient direction：gradient vector 中 gradient 變化量最大的角度

noise 對 edge detection 的影響

noise 對邊緣檢測的影響不大
若有較大的影響可以考慮先對影像進行平滑運算
- Median filter
- Gaussian filter
- Bilateral filter

Tradeoff：影像模糊度越強，noise 越少，但 edge 也會被模糊掉

edge detector

好的 edge detector 應避免這些事情發生

Poor robustness to noise：對 noise 抵抗能力低
Poor localization：與真實 edge 位置仍有小幅度差距
Too many responses：檢出太多不必要 edge

Sobel edge detector

Sobel Operator

由高斯平滑 + 一階微分 組成

gradient magnitude & gradient direction

缺點

準確率差，誤判率高
對 noise 敏感

Line Detection

直線是一個很常見的特徵，例如在建築物、道路、零件電路板等都看得到
從 edge 資訊更進一步找出直線

Naïve method

對影像中的 edge 點任取兩個點，檢查在此點形成的線上是否有其他 edge 點
當點數量大於一定值時，視為真正的直線
缺點：

時間複雜度為$ O(N^2) $ ，N 為 edge 數量

Hough transform

與蠻力法相似，用投票的方式來找出合適的線段
但不同的地方在於使用 hough space 將直線透過另一種公式做轉換

Hough space

直線方程式
$ y=ax+b $(1)
但這個方程式(1)不能表示垂直的線段

$ r = xcos \theta + ysin \theta $ (2)

因此由公式(2)可以簡單的改變$ \theta $ 值組合出多種不同角度的直線

單個 edge 點(x,y)在$ [r,\theta] $ hough space 下所呈現多條直線的結果為

可以看到單個點在$ [r,\theta] $空間下畫出一條彎曲線

加上不同 edge 座標點，可以在 hough space 下畫出多條彎曲線
並且有疊加交點，而此交點正好是兩點所形成的直線$ [r, \theta] $

可篩選交點數較多的點為真實直線，也可以篩選指定直線角度範圍

優點：

概念簡單，好實現
相同概念也可以用在檢測圓形

缺點：

只得到直線角度資訊，沒有直線長度資訊

補充

消失點 vanishing point

消失點是三維空間中所有平行線相交的交點。
消失點的應用在檢測道路上有很大的幫助，在二維影像中車道最終會在消失點相交，但真實空間的車道是平行的。
透過 edge 尋找消失點，進行道路檢測。

VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition ICCV2017-用 DeepLearning 進行消失點檢測影片

參考

Line Detection by Hough transformation

cs131 lecture 3 Filters And Convolutions

Posted on 2021-02-18 Edited on 2023-09-01 In course Views:

概述

What is filtering：Forming a new image whose pixel values are transformed
from original pixel values

影像處理中的濾波：把原來影像像素值透過某種轉換組合成新的影像

目標

從影像中取出有用的訊息或轉換影像屬性
- 擷取特徵：edge, corners, blobs detection…
- 其他應用：超解析度成像 super-resolution, 影像修復 in-painting, 去噪 de-noising

convolution & correlation

convolution 公式：

correlation 公式：

compare with convolution & correlation

convolution 的符號是$ f*g $，correlation的符號是$ f**g $
convolution 先對 filter mask 做轉置再做 correlation

參考

影像修復 matlab example

cs131 lecture 2 Images And Transformations

Posted on 2021-02-10 Edited on 2023-11-01 In course Views:

數位影像的類別

Binary ：二值化影像，影像像素值非 0 即 1，在影像顯示中 0 表示黑色、1 代表白色
Grayscale ：灰階影像，影像像素值在[0~255]之間，像素值越大越接近白色
Color ：彩色影像，常見的是 RGB 和 CMYK，RGB 彩色影像是由紅、綠、藍三個色彩通道組合而成。CMYK 則是由青色(Cyan)、洋紅色(Magenta)、黃色(Yellow)、黑色(blacK)四個通道組成。