Hello Potato World
[ํฌํ ์ดํ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning Data Augmentation Strategies for Object Detection ๋ณธ๋ฌธ
[ํฌํ ์ดํ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Learning Data Augmentation Strategies for Object Detection
Heosuab 2020. 12. 9. 23:03
โ ๏ฝก ห โ๏ธ ห ๏ฝก โ ๏ฝก ห โฝ ห ๏ฝก โ
[Data Augmentation/Object Detection paper review]
Classification์์์ Data Augmentation์ ๋ง์ด ๋ค๋ค๋ดค์ง๋ง Object Detection์์๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์ด๋ค์ง๋์ง ๋ฌธ๋ ๊ถ๊ธํด์ ธ์ ์์นญํ๋ค๊ฐ ์ฝ๊ฒ ๋ ๋ ผ๋ฌธ. ์๊ฐ๋งํผ ์ ํ์ฐ๊ตฌ๊ฐ ๋ง์ด ์ด๋ค์ง์ง ์์ ๊ฒ ๊ฐ๊ณ detection ์ธ์๋ ๋ง์ ๋ด์ฉ์ ๊ณต๋ถํด์ผ ์ ํํ๊ฒ ์ดํดํ ์ ์์ ๊ฒ ๊ฐ๋ค.
Learning Data Augmentation Strategies for Object Detection
Data Augmentation(๋ฐ์ดํฐ ์ฆ๊ฐ)์ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์ด๋, ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋๋ ค์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๊ณ ์ถ์ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ์ ํน์ง๋ค์ ์ ์ก์๋ด์ง ๋ชปํ ๋ฟ๋ง ์๋๋ผ Overfitting, Underfitting์ ๋น ์ง๊ธฐ ์ฝ๋ค. ๊ทธ๋ฆผ์์ ๋ณด๋๊ฒ๊ณผ ๊ฐ์ด ์๋ณธ ์ด๋ฏธ์ง์ ์ธ์์ ์ธ noise๋ ๋ณํ๋ฅผ ์ฃผ์ด ๋ฐ์ดํฐ์ ์์ ์ฆํญ์ํค๋๋ฐ ํ์ , ์๋ณํ, ์๋ผ๋ด๊ธฐ, ์ผ๋ถ ํฝ์ ๋ณํ, ์ค์ผ์ผ๋ง, ๋ค์ง๊ธฐ, ๋ฐ๊ธฐ ๋ณํ ๋ฑ... ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์์ ์ ์๋ค.
Classification์์๋ ์ด๋ฏธ Data Augmentation์ด ํ์์ ์ด๊ณ , ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๋๋ฐ ํฐ ๋์์ ์ค๋ค๋ ๊ฒ ๋ง์ด ์ ์ฆ์ด ๋์์ง๋ง Object Detection์์์ Data Augmentation์ ์์ง ์จ์ ํ๊ฒ ์ฐ๊ตฌ๋์ง ์์๋ค. ๋ ผ๋ฌธ ๋ด์์ ์ธ๊ธ๋ ์์ธ์ ๋๊ฐ์ง ์ ๋๊ฐ ์๋๋ฐ
- Object detection์์๋ image annotation, bounding box ๊ฐ ๋ณํ๋ฅผ ํจ๊ป ์ค์ผํ๋ ์ถ๊ฐ์ ์ธ ์ฐ์ฐ์ด ํ์ํ๋ค.
- Classification์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ๋ณด๋ค detection์ ์ํ ๋ฐ์ดํฐ์ ์ example์ด ๋ ์ ๋ค.
Figure2์์ ๋ณผ ์ ์๋ฏ์ด, Object Detection์ ๊ฐ์ฒด์ ์์น๋ฅผ bounding box์ ๊ธฐ๋ฐํด์ ๊ฒ์ถํ๊ธฐ ๋๋ฌธ์ ๋ณํ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ์ bounding box์ ์ขํ๊ฐ๋ ํจ๊ป ๋ณํํด์ผํ ์๋ ์๊ณ , ์ฌ๋ฌ๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํด์ผ ํ๊ธฐ ๋๋ฌธ์ Classification๋ณด๋ค ๋ณต์กํ ๊ณผ์ ์ ๋ฐ๋ฅธ๋ค.
๋ ผ๋ฌธ์์๋ Classification์์ ์ฌ์ฉํ๋ ์ด๋ฏธ์ง ๋ณํ ๋ฐฉ์(operations)๋ฅผ ๊ทธ๋๋ก ๋น๋ ค์ค๋, detection์ ๋ง๊ฒ ๋ณํํ๊ธฐ ์ํด 3๊ฐ์ง ๊ฒฝ์ฐ์ operations๋ฅผ ์์ฝํ๋ค.
- Color operations : ์ด๋ฏธ์ง์ color๊ฐ์ ๋ณํํ๋, bounding box์ ์์น ์ขํ๊ฐ์๋ ๋ณํ๋ฅผ ์ฃผ์ง ์๋๋ค.
- Equalize, Contrast, Brightness.....๋ฑ(์ฃผ๋ก PIL๋ฅผ ์ฌ์ฉํ ๋ณํ)
- Geometric operations : ์ด๋ฏธ์ง์ ์์น์ ๋ณด๋ฅผ ๋ฐ๊พธ๋ฉฐ(๊ฐ์ฒด์ ์์น์ ๋ณํ๊ฐ ์๊น), bounding box annotation์ ์์น๋, ์ฌ์ด์ง๋ฅผ ๊ฐ์ด ๋ณํ์ํจ๋ค.
- Rotate, ShearX, TranslationY.....๋ฑ
- Bounding box operations : ์ด๋ฏธ์ง ๋ด์์ bounding box annotation์ด ์๋ ๋ถ๋ถ์ ํฝ์
๋ง ๋ณํ์ํจ๋ค.
- BBox_Only_Equalizae, BBox_Only_Rotate, BBox_Only_FlipLR.....๋ฑ
์ด operations๋ training ๊ณผ์ ์์ ์ฌ์ฉํ๋ฉฐ(test์ค์๋ ์ฌ์ฉํ์ง ์๊ณ ๊ธฐ์กด๊ณผ ๋์ผํ๊ฒ ์ ์งํด์ผํ๋ค.) ํ๋์ ์ด๋ฏธ์ง์ ๋ํด ์์ฐจ์ ์ผ๋ก ์ฌ๋ฌ ๊ฐ ์ ์ฉ๋๋๋ฐ, ์ด๋ค ๋ณํ์ ์ด๋ค ์์๋ก ์ฌ์ฉํ ์ง Search method๋ฅผ ํตํด ์ต์ ํ์ํจ๋ค.
๊ฐ๊ฐ N๊ฐ์ ์์ฐจ์ ์ธ transformation operands๋ฅผ ๊ฐ๋ K๊ฐ์ sub-policy๋ฅผ ํ์ตํ๊ณ training ๊ณผ์ ์์ ๊ฐ ์ด๋ฏธ์ง์ ์ ์ฉ๋ policy๊ฐ ๋๋ค์ผ๋ก ์ ํ๋๋ค. Figure3๋ K=5, N=2์ผ ๋์ Search Space์ด๊ณ , ๊ฐ๊ฐ์ operands๋ ๋ค์ ๋ด์ฉ์ ํด๋นํ๋ ์ด 3๊ฐ์ ํ๋ผ๋ฏธํฐ(predictions)๋ฅผ ๊ฐ์ง๋ค.
- ์ด๋ค image transformation๊ฐ ์ ํ๋๋์ง
- transformation์ด ์ ์ฉ๋ ํ๋ฅ M
- transformation์ด ์ ์ฉ๋ ํฌ๊ธฐ L (ex ๋ช๋ ํ์ ?)
์ด ์กฐ๊ฑด ๋ด์์ ์ข์ sub-policy๋ฅผ ๊ณ ๋ฅด๋ ํ๋ฅ ์ ์ฌ์ ์ฐ๊ตฌ์ ์ํด(๋ค๋ฅธ ๋ ผ๋ฌธ์ด ๋ถ๋ก์ผ๋ก ์ฌ์ด์ ธ์๋๋ฐ ์ถํ์ ๋ด์ผํ ๊ฒ ๊ฐ๋ค) ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์ ์๋๊ณ , sub-policy๊ฐ 5์ผ ๊ฒฝ์ฐ์๋ ๊ฐ๊ฐ์ ๊ฒฝ์ฐ์ ๋ํด ๊ณ์ฐํด์ค์ผ ํ๋ฏ๋ก 5์ ๊ณฑ๋ฐฐ๊ฐ ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด ํ๋ฅ ์ค์์ ์ ํํ๊ธฐ ์ํด PPO(Proximal Policy Optimiation)์ ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ์ policy๋ฅผ ์ ์ ํ๋ค.
Reference
[1] Zoph et al, Learning Data Augmentation Strategies for Object Detection, 2019