๋ถ๋ฅ:์ธ๊ณต์ง๋ฅ
์ด ๋ฌธ์์ ์๋ณธ์ ์ธ๋ถ ์ํค์์ ๊ฐ์ ธ์์ต๋๋ค.
ANN์์ ๋์ด์ด
1. ๊ฐ์2. ๋ณธ๋ก
2.1. ์ ๋ฌ/ํ์ฑ ํจ์2.2. ํ์ต ๋ฐฉ๋ฒ2.3. ์๋ฌผํ์ ๋์์ ์ฐจ์ด2.4. ๋ช
์ํ๋ณต, ๊ทธ๋ฆฌ๊ณ ๋ถํ
3. ์ข
๋ฅ3.1. Perceptron
4. ํ์ต๋ฒ5. ๊ณตํ์ ์ธ ๊ธฐ์ 6. ๋ฌธ์ ์ 7. ๊ธฐ์ ๋ํฅ8. ๊ธฐํ9. ๊ด๋ จ ๋ฌธ์3.1.1. Multi Layer Perceptron (MLP)
3.2. ์ฌ์ธตํ์ต(Deep Learning)3.3. ๊ฐํํ์ต3.4. ์งํ์ ๋ต3.5. ํผํฉ๋ชจ๋ธ1. ๊ฐ์[ํธ์ง]
ไบบๅทฅ็ฅ็ถ็ถฒ / artificial neural network
์ธ๊ณต์ ๊ฒฝ๋ง์ด๋, ์ธ๊ฐ์ ๋ด๋ฐ ๊ตฌ์กฐ๋ฅผ ๋ณธ๋ ๋ง๋ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ด๋ค.
์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ์๋ฌผ์ ์ ๊ฒฝ๋ง, ํนํ ์ธ๊ฐ์ ์๊ฐ/์ฒญ๊ฐ ํผ์ง์ ๋ณธ๋ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. (์ง์ง ์ธ๊ฐ ๋์ ์๋ ๋ฐฉ์๊ณผ๋ ๋ฐฑ๋ง ๊ด๋ ์ ๋ ๊ฑฐ๋ฆฌ๊ฐ ์๋ค.)
์ฒ์๋ถํฐ ์ด๋ ๊ฒ ์ ๋งํ ๋ถ์ผ์๋ ๊ฒ์ ์๋๋ค. ํ๋์ ์ํฌํธ ๋ฒกํฐ ๋จธ์ ๊ณผ ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ชจ๋ธ ๋ฑ์ ๋ฐ๋ ค ๊ฑฐ์ ์ฌ์ฅ๋๋ค์ํผ ํ๋๋ฐ, ๊ทธ๋ฐ ๋์์ ์ธ ๋ฐ์ ์์์๋ ๋ฌต๋ฌตํ ์์ญ๋ ๊ฐ ์ฐ๊ตฌ๋ฅผ ์ด์ด์จ ์ผ๋ถ ๊ณผํ์๋ค์ ์ํด ๊ธฐ์ ์ฒ๋ผ ๋ค์ ๋น์ ๋ณด๊ฒ ๋ ํน์ดํ ์ผ์ด์ค๋ค.[1]
์ธ๊ณต์ ๊ฒฝ๋ง์ด๋, ์ธ๊ฐ์ ๋ด๋ฐ ๊ตฌ์กฐ๋ฅผ ๋ณธ๋ ๋ง๋ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ด๋ค.
์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ์๋ฌผ์ ์ ๊ฒฝ๋ง, ํนํ ์ธ๊ฐ์ ์๊ฐ/์ฒญ๊ฐ ํผ์ง์ ๋ณธ๋ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. (์ง์ง ์ธ๊ฐ ๋์ ์๋ ๋ฐฉ์๊ณผ๋ ๋ฐฑ๋ง ๊ด๋ ์ ๋ ๊ฑฐ๋ฆฌ๊ฐ ์๋ค.)
์ฒ์๋ถํฐ ์ด๋ ๊ฒ ์ ๋งํ ๋ถ์ผ์๋ ๊ฒ์ ์๋๋ค. ํ๋์ ์ํฌํธ ๋ฒกํฐ ๋จธ์ ๊ณผ ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ชจ๋ธ ๋ฑ์ ๋ฐ๋ ค ๊ฑฐ์ ์ฌ์ฅ๋๋ค์ํผ ํ๋๋ฐ, ๊ทธ๋ฐ ๋์์ ์ธ ๋ฐ์ ์์์๋ ๋ฌต๋ฌตํ ์์ญ๋ ๊ฐ ์ฐ๊ตฌ๋ฅผ ์ด์ด์จ ์ผ๋ถ ๊ณผํ์๋ค์ ์ํด ๊ธฐ์ ์ฒ๋ผ ๋ค์ ๋น์ ๋ณด๊ฒ ๋ ํน์ดํ ์ผ์ด์ค๋ค.[1]
2. ๋ณธ๋ก [ํธ์ง]
3blue1brown์ ๊ฐ๋จํ ์ค๋ช
๊ธฐ๋ณธ ์๋ฆฌ๋ ๋จ์ํ๋ค. ๋ช ๊ฐ์ ์ธต์๋ฅผ ๋ง๋ค์ด์ ๊ทธ ์์ '์ธํฌ'๋ค์ ์ง์ด๋ฃ๊ณ , ์ด๋ค์ ๋ฌด์์ ์ฐ๊ฒฐ ๊ฐ๋๋ก ์ฐ๊ฒฐํ๋ค. ๊ฐ '์ธํฌ'๋ค์ ์์ ์๊ฒ ๋ค์ด์จ ์ ํธ๋ฅผ ๊ฐ์ค์น์ ๊ณฑํด ๋ชจ๋ ๋ํ๊ณ (), ์ญ์น์ ๋น๊ตํด์() ์ ํธ๋ฅผ ๋ค์ ๋ด๋ฐ์ผ๋ก ์ ๋ฌํ๋ค.
๊ทธ๋ฐ๋ฐ ์ด๋ ๊ฒ๋ง ํ ๊ฒฝ์ฐ ์ ์ก๋๋ ์ ํธ๋ ๊ทธ๋ฅ ์ ๋ ฅ ์ ํธ์ ์ ํ ํฉ์ด ๋ ๋ฟ์ด๊ณ , ์ ํ ํฉ์ ์๋ฌด๋ฆฌ ๋ณต์กํ๊ฒ ๋ฐ๋ณตํด ๋ดค์ ๋์ค๋ ๊ฑด ๊ทธ๋ฅ ์ ๋ ฅ ์ ํธ์ ์ ํ ํฉ๋ฐ์ ์๋ค(...). ๋ค์ ๋งํด ์๋ฌด๋ฆฌ ๋ง์ ์ธต์ ์์๋ดค์ ํ๋ ฌ ๊ณฑํ๊ธฐ ์ฐ์ฐ์ ํ ๋ฒ ํ ๊ฒ๊ณผ ๋์ผํ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ ๊ฒ์ด๋ค. ์ด์ ๊ฐ์ ๋ฌธ์ ์ ์ ๋น์ ํ ํ์ฑ ํจ์๋ฅผ ๋์ ํ์ฌ ํด๊ฒฐํ ์ ์๋ค. ๋น์ ํ ํจ์๋ฅผ ๋์ ํ ๊ฒฝ์ฐ ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจ๋ธ๋ก ๋น์ ํ ๋ฌธ์ ๋ฅผ ํ ์ ์๊ณ , ๋ง์ ์ธต์ ์์ ๊ฒฝ์ฐ ๋์ฒด์ ์ผ๋ก ๊ฒฐ๊ณผ๋ฌผ์ด ํฅ์๋๋ค. ๋์ฑ์ด ์ด๋ฌํ ๋น์ ํ ํ์ฑ ํจ์์ ๊ฒฝ์ฐ ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ ๊ฐ์ด ํน์ ๊ฐ๋ณด๋ค ํฐ ๊ฒฝ์ฐ ํจ์์ ๊ตญ๋ถ์ ์ธ ํน์ฑ์ด ํ์ดํ๊ฒ ๋ณํ๊ฒ ๋๋๋ฐ, ์ด๋ ์ธํฌ๊ฐ ์๊ณ์น ์ด์์ ์๊ทน์ ๋ฐ์ผ๋ฉด ํ์ฑํ ๋์ด ๋ฐ์์ ํ๋ ๊ฒ๊ณผ ๋งค์ฐ ์ ์ฌํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋น์ ํ ํจ์๊ฐ ํ์ฑ ํจ์๋ผ๊ณ ๋ถ๋ฆฌ๊ฒ ๋์๋ค.
2.1. ์ ๋ฌ/ํ์ฑ ํจ์[ํธ์ง]
์์ ์ธ๊ธํ๋ฏ์ด ์
๋ ฅ ์ ํธ์ ์ ํ ํฉ์ ํ์ฑํ ํจ์์ ์ง์ด๋ฃ์ผ๋ฉด์ ์ต์ข
์ ์ผ๋ก ์ ํธ์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ๋๋ฐ, ๊ทธ๋ฅ ์ฃผ๋จน๊ตฌ๊ตฌ์์ผ๋ก ์ด๊ฒ์ ๊ฒ ํจ์๋ฅผ ๋์
ํด ๋ณด๋ฉด์ ๊ฐ์ฅ ๊ฒฐ๊ณผ๊ฐ ์ข์ ํจ์๋ฅผ ์ฌ์ฉํ๋ ์ค์ด๋ค. ์ด๊ธฐ์๋ ์ค์ ์ธํฌ์ ์ค๋ฌด์จ์ ์ ๋ชจ์ฌํ ๊ฒ์ผ๋ก ๋ณด์ด๋ sigmoid ํจ์๋ฅผ ์ฌ์ฉํ logistic ๋ชจ๋ธ์ด ์ฌ์ฉ๋์๊ณ , tanhํจ์๋ softmax ํจ์๊ฐ ์ฌ์ฉ๋์๋ค. ๊ทธ๋ฌ๋ ํด๋น ํจ์๋ฅผ ํ์ฑ ํจ์๋ก ์ธ ๊ฒฝ์ฐ ์๋ ์ธต์ ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ฐ๊ฒฐ ๊ฐ๋๋ฅผ ํ์ต์ํฌ ๋ ํ์ฑ ํจ์ ๋ฏธ๋ถ ๊ฐ์ ๊ณฑํ ๊ฐ์ด 0์ผ๋ก ์๋ ดํ์ฌ ํ์ต์ด ์ ๋์ง ์๋๋ค๋ ๋ฌธ์ ๊ฐ ์์๋ค. ์ด์ ๋ฐ๋ผ ์ต๊ทผ์๋ sigmoid, tanh์ ๊ฐ์ squashing function์ด ์๋๋ผ, ReLU์ ๊ฐ์ด ์
๋ ฅ ๊ฐ์ด ์ฆ๊ฐํ ์๋ก ์ถ๋ ฅ ๊ฐ๋ ์ฆ๊ฐํ๋ ํจ์๊ฐ ๋ง์ด ์ฌ์ฉ๋๊ณ ์๋ค. ReLUํจ์๋ max(0, x)์ ๊ผด์ ๊ฐ์ง๋๋ฐ, ์
๋ ฅ ๊ฐ์ด 0 ์ดํ๋ฉด ํญ์ 0์ ์ถ๋ ฅ ๊ฐ์ ๊ฐ์ง๋ฏ๋ก, ์์์ธ ์
๋ ฅ ๊ฐ์ ๋ํ์ฌ ํด๋น ๋ด๋ฐ์ ํ์ต์ด ์งํ๋์ง ์๋๋ค๋ ๋ฌธ์ ์ ์ด ์์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ ์์์ ์
๋ ฅ ๊ฐ์์๋ 0์ด ์๋ ์ถ๋ ฅ ๊ฐ์ ๊ฐ์ง๋ Leaky ReLU ํจ์ ๋ฐ Parametric ReLU ํจ์๊ฐ ์ ์๋์์ผ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ReLU๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค๊ณ ์๋ ค์ ธ์๋ค. ๋๋ถ์ด ํจ์์ ๋ฏธ๋ถ ๊ฐ์ด ์ฐ์์ ์ธ ELU ํจ์ ๋ํ ํ์ฑ ํจ์๋ก ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ค.
๋ค๋ง ์ต๊ทผ ๋ฐฐ์น ์ ๊ทํ๋ผ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๋ฉด์, ์ ๋ ฅ์ ๊ฐ ๋ถํฌ๋ฅผ ์ต์ ํํ ์ ์๊ฒ๋จ์ ๋ฐ๋ผ, sigmoid ํจ์๋ฅผ ํ์ฑํจ์๋ก ์ฐ๋๋ผ๋ ์๋์ธต์ด ๋ง์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ ํ์ต์ํฌ ์ ์๊ฒ ๋์๋ค. ์ด์ ๊ฐ์ ํ์์ sigmoid ํจ์๊ฐ ๊ทผ๋ฐฉ์์ ์ง์ ๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก ์ ๋ ฅ์ ์ ์ฒ๋ฆฌํด์ฃผ๋ฉด ์ฃผ๋ก ํด๋น ์์ญ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์์ ๊ธฐ์ธํ๋ค.
๋ค๋ง ์ต๊ทผ ๋ฐฐ์น ์ ๊ทํ๋ผ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๋ฉด์, ์ ๋ ฅ์ ๊ฐ ๋ถํฌ๋ฅผ ์ต์ ํํ ์ ์๊ฒ๋จ์ ๋ฐ๋ผ, sigmoid ํจ์๋ฅผ ํ์ฑํจ์๋ก ์ฐ๋๋ผ๋ ์๋์ธต์ด ๋ง์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ ํ์ต์ํฌ ์ ์๊ฒ ๋์๋ค. ์ด์ ๊ฐ์ ํ์์ sigmoid ํจ์๊ฐ ๊ทผ๋ฐฉ์์ ์ง์ ๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก ์ ๋ ฅ์ ์ ์ฒ๋ฆฌํด์ฃผ๋ฉด ์ฃผ๋ก ํด๋น ์์ญ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์์ ๊ธฐ์ธํ๋ค.
2.2. ํ์ต ๋ฐฉ๋ฒ[ํธ์ง]
์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ต์ ์งํํ๋ฉด ํ์ต ๋ฐ์ดํฐ์์ ์ค์ฐจ๋ฅผ ์ต์ํํ ๊ฒ์ผ๋ก ์์๋๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ค์น ์ ์ญ์น ์ ์
๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง๋ค. '์ญ์น'๋ผ๊ณ ํํํ๊ธฐ๋ ํ์ง๋ง, ์ด ๊ฐ์ ์ถ๋ ฅ ๊ฐ์ด 1์ธ 'ํธํฅ ์ธํฌ(bias neuron)'๊ณผ์ ์ฐ๊ฒฐ ๊ฐ๋๋ก ๋ณผ ์๋ ์์ผ๋ฏ๋ก ์ญ์น ๋ํ ์ฌ์ค์ ์ผ์ข
์ ์ฐ๊ฒฐ ๊ฐ๋, ์ฆ ๊ฐ์ค์น๋ผ๊ณ ๋ณผ ์ ์๋ค. ๊ทธ๋์ ๋ช๋ช ์๋ฃ์์ ๊ฐ์ค์น ์ ์ญ์น ๊ฐ ํฌํจ๋์ด ์๋ ๊ฒฝ์ฐ๋ ์๋ค.
ํ์ต์ ์งํํ ๋, ๊ฐ์ค์น๋ฅผ ํ ๋ฒ์ ํฌ๊ฒ ํฌ๊ฒ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ด ์๋๋ผ, ์กฐ๊ธ์ฉ ์ ๋ฐ์ดํธ๋ฅผ ์ฌ๋ฌ ๋ฒ ํ๊ฒ๋๋ค. ๊ทธ ์ด์ ๋, ์ค์ฐจ๋ฅผ ์ค์ผ ๊ฒ์ผ๋ก ๋ณด์ด๋ ๊ฐ์ค์น ์ ๋ฐ์ดํธ ๋ฐฉํฅ์ด, ์ฅ๊ธฐ์ ์ผ๋ก ๋ณด๋ฉด ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด์, ์ด๋ค ๋ชฉ์ ์ง๋ก ๊ฑธ์ด ๊ฐ ๋ ๋์ ๊ฐ๊ณ ์๋ค๊ฐ ํ ๋ฒ์ฉ ๋์ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ ๋ค, ๋ค์ ๋์ ๊ฐ๊ณ ์์ง์ฌ์ผ ํ๋ ์ํฉ์ ์๋ค๊ณ ์๊ฐํด๋ณด์. ๋์ ํ ๋ฒ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ๋ค๊ณ ํ๋ค ๋์ ๊ฐ๊ณ ๋๋ฌด ๋ง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ฉด ๋ฒฝ์ ๋ถ๋ชํ ์๋ ์๊ณ , ์ฌ๊ณ ๊ฐ ๋ ์๋ ์๋ค. ๋ฐ๋ฉด์ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ ํ, ๋์ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ๊ณ , ๋ค์ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ฉด ์ฌ๊ณ ๊ฐ ๋์ง ์์ ์ ์์ผ๋, ๋ชฉ์ ์ง์ ๋๋ฌํ ๋๊น์ง ๋๋ฌด ๋ง์ ์๊ฐ์ด ๊ฑธ๋ฆด ์ ์๋ค. ๋ฐ๋ผ์ ๊ฑธ์ด๊ฐ ๋ ์ ์ ํ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ ๊ฒ์ด ์ค์ํ ๋ฌธ์ ๊ฐ ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ตํ ๋ ์ ์ ํ ํ์ต๋ฅ ๋ก ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ์ง ์์ผ๋ฉด, ์ธ๊ณต ์ ๊ฒฝ๋ง์ด ๋ฐ์ฐํ๊ฑฐ๋, ํ์ตํ๋๋ฐ์ ๋๋ฌด ์ค๋๊ฑธ๋ฆฌ๋ ๋ฑ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋๋ค.
ํ์ต์ ์งํํ ๋, ๊ฐ์ค์น๋ฅผ ํ ๋ฒ์ ํฌ๊ฒ ํฌ๊ฒ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ด ์๋๋ผ, ์กฐ๊ธ์ฉ ์ ๋ฐ์ดํธ๋ฅผ ์ฌ๋ฌ ๋ฒ ํ๊ฒ๋๋ค. ๊ทธ ์ด์ ๋, ์ค์ฐจ๋ฅผ ์ค์ผ ๊ฒ์ผ๋ก ๋ณด์ด๋ ๊ฐ์ค์น ์ ๋ฐ์ดํธ ๋ฐฉํฅ์ด, ์ฅ๊ธฐ์ ์ผ๋ก ๋ณด๋ฉด ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด์, ์ด๋ค ๋ชฉ์ ์ง๋ก ๊ฑธ์ด ๊ฐ ๋ ๋์ ๊ฐ๊ณ ์๋ค๊ฐ ํ ๋ฒ์ฉ ๋์ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ ๋ค, ๋ค์ ๋์ ๊ฐ๊ณ ์์ง์ฌ์ผ ํ๋ ์ํฉ์ ์๋ค๊ณ ์๊ฐํด๋ณด์. ๋์ ํ ๋ฒ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ๋ค๊ณ ํ๋ค ๋์ ๊ฐ๊ณ ๋๋ฌด ๋ง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ฉด ๋ฒฝ์ ๋ถ๋ชํ ์๋ ์๊ณ , ์ฌ๊ณ ๊ฐ ๋ ์๋ ์๋ค. ๋ฐ๋ฉด์ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ ํ, ๋์ ๋ ์ ์ฃผ๋ณ ์ํฉ์ ํ์ ํ๊ณ , ๋ค์ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ฉด ์ฌ๊ณ ๊ฐ ๋์ง ์์ ์ ์์ผ๋, ๋ชฉ์ ์ง์ ๋๋ฌํ ๋๊น์ง ๋๋ฌด ๋ง์ ์๊ฐ์ด ๊ฑธ๋ฆด ์ ์๋ค. ๋ฐ๋ผ์ ๊ฑธ์ด๊ฐ ๋ ์ ์ ํ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฑธ์ด๊ฐ๋ ๊ฒ์ด ์ค์ํ ๋ฌธ์ ๊ฐ ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ตํ ๋ ์ ์ ํ ํ์ต๋ฅ ๋ก ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ์ง ์์ผ๋ฉด, ์ธ๊ณต ์ ๊ฒฝ๋ง์ด ๋ฐ์ฐํ๊ฑฐ๋, ํ์ตํ๋๋ฐ์ ๋๋ฌด ์ค๋๊ฑธ๋ฆฌ๋ ๋ฑ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋๋ค.
2.3. ์๋ฌผํ์ ๋์์ ์ฐจ์ด[ํธ์ง]
์ธ๊ณต ์ ๊ฒฝ๋ง์ด๋ผ๋ ๋จ์ด ์์ฒด๊ฐ ๋ํ๋ด๊ณ ์๋ฏ์ด ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์๋ฌผํ์ ์ธ ๋์ ํฐ ์ฐจ์ด์ ์ ๋ณด์ธ๋ค. ์๋ฌผ์ ๋, ํนํ ์ธ๊ฐ์ ๋๋ 1,000์ต ๊ฐ ์ด์์ ์ธํฌ๋ก ๊ตฌ์ฑ๋์ด์๋๋ฐ, ํ์ฌ๊น์ง์ ๊ธฐ์ ๋ก๋ ์ด์ ๊ฐ์ ์์ ๋ด๋ฐ์ ์๋ฎฌ๋ ์ด์
ํ ์ ์๋ค. ๋น๋ก ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ ์์ฒด๊ฐ ์๋ฌผํ์ ์ธ ๋์ ๊ตฌ์กฐ๋ฅผ ๋ชจ์ฌํ๋ฉฐ ์์๋์์ผ๋, ๋ด๋ฐ์ ์ ๋ง๊ณ ๋ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค. ์ผ๋ฐ์ ์ธ ์ธํฌ๋ ์ญ์น ์ด์์ ์๊ทน์ ๋ฐ์ง ์์ผ๋ฉด, ์์ ๋ฐ์์ ํ์ง ์๊ณ , ์ญ์น ์ด์์ ์๊ทน์ ๋ฐ์ผ๋ฉด ๋ฐ์์ ํ๋ ์ค๋ฌด์จ ํน์ฑ์ ๋ณด์ธ๋ค. ์๊ทน์ด ์ธ์ง๋ฉด ๋ฐ์์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ ๊ฒ์ด ์๋๋ผ, ๋ฐ์์ ๋น๋๊ฐ ๋์์ง๋๋ฐ, ์ฌ์ค ์ด๋ฌํ ํน์ฑ์ ๊ณ๋จ ํจ์(step function), ํน์ ๋๋ฝ ๋ธํ ํจ์์ ๋น์ทํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๊ทธ๋ฐ๋ฐ ๋จ์ ๊ณ๋จ ํจ์์ ๊ฐ์ ๊ณ๋จ ํจ์์ ๊ฒฝ์ฐ ์ธ ๊ณณ์์ ๋ถ์ฐ์์ ์ด๋ฏ๋ก ๋ฏธ๋ถ์ ํ ์๊ฐ ์๊ณ , ๊ทธ๋์ ํ์ต์ ํ ์ ์๋ค๋ ๋งค์ฐ ํฐ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค. ๋ฐ๋ผ์ ๊ทธ ๋น์์ ๊ณผํ์๋ค๊ณผ ๊ณตํ์๋ค์ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ ๋ถ๋๋ฌ์ด ๊ณ๋จ ํจ์ ํํ์ธ sigmoidํจ์, tanh ํจ์ ๋ฑ์ ์ผ๋ ๊ฒ์ด๋ค. ๋น๋ก sigmoid ํจ์๊ฐ ๊ณ๋จ ํจ์์ ๋งค์ฐ ๋น์ทํ ํจ์๋ผ๊ณ ํ ์ ์์ผ๋, ์๋ฌผํ์ ์ธ ๋์๋ ํฐ ์ฐจ์ด๊ฐ ์๋๋ฐ, ์๋ฌผํ์ ์ธ ๋๋ ์๊ฐ์ ํ๋ฆ ์์ด๋ ์๋ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ฉด ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๊ฒฝ์ฐ ์
๋ ฅ ๊ฐ๋ง ์ฃผ๋ฉด, ์๊ฐ์ ํ๋ฆ๊ณผ๋ ์๊ด ์์ด ์ถ๋ ฅ ๊ฐ์ด ์ ํด์ ธ์๋ค.
๋์ฑ์ด ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ ์์ฒด๊ฐ ๋ฐ์ ํ๋ฉฐ, sigmoid ํจ์๊ฐ ์๋ ReLU ๊ณ์ด์ ํจ์๊ฐ ํ์ฑ ํจ์๋ก ๋๋ฆฌ ์ฐ์ด๊ฒ ๋์๋๋ฐ, ์ด๋ฌํ ํจ์๋ ๊ณ๋จ ํจ์์๋ ๋ค์ ๊ฑฐ๋ฆฌ๊ฐ ์์ผ๋ฏ๋ก ์๋ฌผํ์ ์ธ ๋์๋ ๋์ฑ ํฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ค๊ณ ๋ณผ ์๋ ์๋ค. ๋ฌผ๋ก , ReLU ๊ณ์ด์ ํจ์๊ฐ ์๊ทน์ ๋ฐ๋ฅธ ๋ฐ์์ ๋น๋๋ฅผ ๋ํ๋ธ๋ค๊ณ ์๊ฐํ ๊ฒฝ์ฐ ๊ฑฐ๋ฆฌ๊ฐ ์ขํ์ก๋ค๊ณ ๋ณผ ์๋ ์๊ฒ ๋ค. ๋ฌธ์ ๋ ๊ณผ๊ฑฐ์ ์ฐ๊ตฌ์๋ค์ด ์๋ฌผํ์ ์ธ ๋์ ์ฐจ์ด๊ฐ ํฐ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ฐ์ฐ ์ฑ๋ฅ์ด ํ๋ฌ๋ ค ์ปดํจํฐ๋ก ๊ณ์ฐ์ ํ๊ธฐ๋ ํ๋ ๋ฐ, ๊ตณ์ด ์ฐ๊ตฌ๋ฅผ ํด์ผ๋๋๋ ์๊ฐ์ ๋ง์ด ํ๋ค๋ ๊ฒ์ด๊ณ , ๊ทธ๋ ๊ฒ ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ญ์ฌ์ ๋ค์๊ธธ๋ก ์ฌ๋ผ์ง ๋ป ํ๋ค. ๋ฌผ๋ก ์ด์ ๊ฐ์ ๋ฌด๊ด์ฌ์๋ ์ปดํจํฐ ์ฑ๋ฅ๊ณผ ๊ด๋ จ๋ ๋ฌธ์ ๋ฟ ์๋๋ผ, ์๋์ธต์ด ๋ง์์ง์๋ก ํ์ต์ด ์ ๋์ง ์๋๋ค๋ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค๋ ๊ฒ๋ ํ ๋ชซ ํ๋ค.
๋์ฑ์ด ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ ์์ฒด๊ฐ ๋ฐ์ ํ๋ฉฐ, sigmoid ํจ์๊ฐ ์๋ ReLU ๊ณ์ด์ ํจ์๊ฐ ํ์ฑ ํจ์๋ก ๋๋ฆฌ ์ฐ์ด๊ฒ ๋์๋๋ฐ, ์ด๋ฌํ ํจ์๋ ๊ณ๋จ ํจ์์๋ ๋ค์ ๊ฑฐ๋ฆฌ๊ฐ ์์ผ๋ฏ๋ก ์๋ฌผํ์ ์ธ ๋์๋ ๋์ฑ ํฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ค๊ณ ๋ณผ ์๋ ์๋ค. ๋ฌผ๋ก , ReLU ๊ณ์ด์ ํจ์๊ฐ ์๊ทน์ ๋ฐ๋ฅธ ๋ฐ์์ ๋น๋๋ฅผ ๋ํ๋ธ๋ค๊ณ ์๊ฐํ ๊ฒฝ์ฐ ๊ฑฐ๋ฆฌ๊ฐ ์ขํ์ก๋ค๊ณ ๋ณผ ์๋ ์๊ฒ ๋ค. ๋ฌธ์ ๋ ๊ณผ๊ฑฐ์ ์ฐ๊ตฌ์๋ค์ด ์๋ฌผํ์ ์ธ ๋์ ์ฐจ์ด๊ฐ ํฐ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ฐ์ฐ ์ฑ๋ฅ์ด ํ๋ฌ๋ ค ์ปดํจํฐ๋ก ๊ณ์ฐ์ ํ๊ธฐ๋ ํ๋ ๋ฐ, ๊ตณ์ด ์ฐ๊ตฌ๋ฅผ ํด์ผ๋๋๋ ์๊ฐ์ ๋ง์ด ํ๋ค๋ ๊ฒ์ด๊ณ , ๊ทธ๋ ๊ฒ ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ญ์ฌ์ ๋ค์๊ธธ๋ก ์ฌ๋ผ์ง ๋ป ํ๋ค. ๋ฌผ๋ก ์ด์ ๊ฐ์ ๋ฌด๊ด์ฌ์๋ ์ปดํจํฐ ์ฑ๋ฅ๊ณผ ๊ด๋ จ๋ ๋ฌธ์ ๋ฟ ์๋๋ผ, ์๋์ธต์ด ๋ง์์ง์๋ก ํ์ต์ด ์ ๋์ง ์๋๋ค๋ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค๋ ๊ฒ๋ ํ ๋ชซ ํ๋ค.
2.4. ๋ช ์ํ๋ณต, ๊ทธ๋ฆฌ๊ณ ๋ถํ[ํธ์ง]
๊ทธ๋ฐ๋ฐ ์ด๋ ๊ฒ ์ญ์ฌ์ ๋ฌปํ ๊ฒ ๊ฐ๋ ์ด ์ด๋ก ์ ๋์ฐ ๋ฅ๋ฌ๋(Deep learning)์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ํ๋ คํ๊ฒ ๋ถํํ๋ค. ์ด๋ '๊ตฌ์๋์ ์ฐ๋ฌผ'๋ก ๋ฐ์๋ค์ฌ์ก๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋ํด์ ๊ณ์ํด์ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ ์ฐ๊ตฌ์๋ค์ด ํฐ ์ง๋ณด๋ฅผ ์ด๋ฃจ์ด๋๊ธฐ ๋๋ฌธ์ธ๋ฐ, ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ฌ์ ํ๋ จ ํด์ฃผ๊ฑฐ๋, sigmoid ๊ณ์ด์ ํจ์๊ฐ ์๋๋ผ ReLU ๊ณ์ด์ ํจ์๋ฅผ ์ฐ๋ฉด ์๋์ธต์ด ๋ง์๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ด ํ์ต์ด ์ ๋๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ ๊ฒ์ด๋ค. ๋๋ถ์ด ๊ฐ์ข
๋ํ์์ ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ๊ธฐ์กด์ ๋ชจ๋ธ์ ๋ง ๊ทธ๋๋ก ๋ฐ์ด๋ด๋ฒ๋ฆฌ๋ฉด์ ์ ๋ง์ ์ฐ๊ตฌ์๋ค์ด ๋๋ผ๋ฉด์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ผ๋ก ๋ค์ ๊ด์ฌ์ ๋๋ฆฌ๊ฒ ๋ ๊ฒ์ด๋ค. ๋ฌผ๋ก ์๋์ธต์ ์๊ฐ ์ง๋์น๊ฒ ๋ง์์ง ๊ฒฝ์ฐ ์ด์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด๋ ๊ฒฐ๊ณผ๋ฌผ์ ์ดํ๊ฐ ๋ฐ์ํ ์๋ ์๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์์ผ๋, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐฐ์น ์ ๊ทํ, ResNet๋ฑ์ ํด๊ฒฐ ๋ฐฉ๋ฒ์ด ์ ์์ด ๋์์ผ๋ฉฐ, ์ค์ ๋ก ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ด์ ๊ฐ์ด ์ธ๊ณต ์ ๊ฒฝ๋ง์ผ๋ก ์ฐ๊ตฌ์์ ๊ด์ฌ์ด ์ ๋ฆฌ๊ณ ์ธ๊ณต ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ๋ฐ์ ํ๋๋ฐ์๋ ๊ธฐ์กด์ ๋์ ๋ก ๋ณด์๋ ๋ฌธ์ ๋ค์ด ํด๊ฒฐ๋ ๊ฒ๋ ๋ฌด์ํ ์ ์์ผ๋, ์ปดํจํฐ์ ์ฐ์ฐ์๋๊ฐ ๋ฌด์ง๋ง์งํ๊ฒ ๋นจ๋ผ์ง๋ฉด์ ๋๋ฆฐ ์๋ ด ์๋๊ฐ ๊ทธ๋ ๊ฒ๊น์ง ๋ถ๊ฐ๋์ง ์๊ฒ ๋์๋ค๋ ๊ฒ๋ ๋ฌด์ํ ์ ์๋ ์์ธ์ด๋ค. ์๋ํ๋ฉด, ๋์ ๋ค์ ๊ฒฐ๊ตญ ์๊ฐ์ด ์ง๋๋ฉด ๋๊ตฐ๊ฐ๋ ํด๊ฒฐ์ ํ์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์์ง ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์ ์ธ๊ฐ ๋์ ์ฑ๋ฅ์ ๋ฐ๋์๋ ๋ฏธ์น์ง ๋ชปํ๋ค. ์ธ๊ฐ์ ์๊ฐํผ์ง์ ๊ณ ์ ๋ช๋ฐฑg๋ฐ์ ๋ฌด๊ฒ๊ฐ ์ ๋๊ณ ์๋์ง์ ์ญ์ ์คํ ํ ์คํผ๋ง ์ฃผ๋ฉด ๋ช ์๊ฐ์ด๊ณ ๊ตด๋ ค๋จน์ ์ ์์ง๋ง, ๊ธฐ๊ณ๊ฐ ๊ทธ ์ผ์ ํ๊ธฐ ์ํด์๋ ์ง์ฑ๋งํ ์ํผ์ปดํจํฐ๋ก๋ ๋ชจ์๋ผ๋ค. ์์ฒญ ๋ธ๋ฆฌ๋ ์ํํธ์จ์ด์ ํจ์จ์ ์๋์ ์ธ ํ๋์จ์ด๋ก ์ฐ์ด๋๋ฅด๊ณ ์๋ ์ . ๋๋ฐ๊ณ ์ค ๊ต์์ ๋ง๋ง๋ฐ๋ ์์ง ๊ธฐ๊ณํ์ต์ ๋ํ ์ฐ๋ฆฌ์ ์ดํด๋ ์ฐ๊ธ์ ์์ค์ด๋ผ๋ ๊ฒ์ด ์ ํํ ๊ฒ์ด๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ง๋๋ ์ฌ๋๋ ์ฐ๋ ์ฌ๋๋ ์ด๊ฒ ์ ์ ์๋ํ๋์ง ์ ๋ชจ๋ฅผ ๋งํผ ๋ถ์๊ณผ ์ถ๋ ฅ์ ์ํธ๊ด๊ณ๊ฐ ์ฒ์ฐจ๋ง๋ณ์ด๋ค. ๊ทธ๋ฅ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋๊น ์ฐ๋ ๊ฑฐ์ง(...) ํนํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ ๊ฐ์ ์ ์ํด ์ ๊ทผํ๋ ๊ฐ์ข ์๋์ ๊ฒฝ์ฐ ์ธ๊ฐ ๋์ธํฌ์ ์๋ ๋ฐฉ์๊ณผ ์ ํ ๊ด๋ จ์ด ์๋ ๊ฒ์ ๋ฌผ๋ก ์ด๊ณ , ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ด๋ป๊ฒ ์ฑ๋ฅ์ด ๋์์ง๋์ง์ ๊ดํ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์กฐ์ ํ๊ฒ๋ผ๋ ๋ถ์ด ์๋ ๊ฒฝ์ฐ๊ฐ ํจ์ฌ ๋๋ฌผ๋ค. ๊ทธ๋ฅ '์ด๋ ๊ฒ ํ๋๊น ํ์ต์ด ๋ ์ ๋๋๋ผ.' ๋ผ๋ ๋ง์ด ๋๋ ํธ. ๋ถ์กฑํ ๊ฒ์ด ๋ง์ง๋ง ๊ทธ๋ ๊ธฐ์ ๋ฐ์ ํ ์ฌ์ง๊ฐ ๋ง์ ๋ ผ๋ฆฌ์ด๋ฉฐ, ์ฌ๋๋ค์ด ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์ ๊ดํด์ ์ธ๊ฐ์ ์ง๋ฅ์ ๋ฐ์ด๋๋ ๊ฐ์ธ๊ณต์ง๋ฅ, ๋ฐ๋ฌ์ ์ถ๊ตฌํ๋ ์ธ๊ณต'์ง์ฑ'์ด ํด๊ฒฐํ๊ธฐ๋ฅผ ๋ฐ๋ผ๋ ๊ฐ์ฅ ํฐ ์ด์ ์ด๊ธฐ๋ ํ๋ค.
2013๋ ์ฆ์๋ถํฐ ํ์ฌ๊น์ง ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์์ง ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์ ์ธ๊ฐ ๋์ ์ฑ๋ฅ์ ๋ฐ๋์๋ ๋ฏธ์น์ง ๋ชปํ๋ค. ์ธ๊ฐ์ ์๊ฐํผ์ง์ ๊ณ ์ ๋ช๋ฐฑg๋ฐ์ ๋ฌด๊ฒ๊ฐ ์ ๋๊ณ ์๋์ง์ ์ญ์ ์คํ ํ ์คํผ๋ง ์ฃผ๋ฉด ๋ช ์๊ฐ์ด๊ณ ๊ตด๋ ค๋จน์ ์ ์์ง๋ง, ๊ธฐ๊ณ๊ฐ ๊ทธ ์ผ์ ํ๊ธฐ ์ํด์๋ ์ง์ฑ๋งํ ์ํผ์ปดํจํฐ๋ก๋ ๋ชจ์๋ผ๋ค. ์์ฒญ ๋ธ๋ฆฌ๋ ์ํํธ์จ์ด์ ํจ์จ์ ์๋์ ์ธ ํ๋์จ์ด๋ก ์ฐ์ด๋๋ฅด๊ณ ์๋ ์ . ๋๋ฐ๊ณ ์ค ๊ต์์ ๋ง๋ง๋ฐ๋ ์์ง ๊ธฐ๊ณํ์ต์ ๋ํ ์ฐ๋ฆฌ์ ์ดํด๋ ์ฐ๊ธ์ ์์ค์ด๋ผ๋ ๊ฒ์ด ์ ํํ ๊ฒ์ด๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ง๋๋ ์ฌ๋๋ ์ฐ๋ ์ฌ๋๋ ์ด๊ฒ ์ ์ ์๋ํ๋์ง ์ ๋ชจ๋ฅผ ๋งํผ ๋ถ์๊ณผ ์ถ๋ ฅ์ ์ํธ๊ด๊ณ๊ฐ ์ฒ์ฐจ๋ง๋ณ์ด๋ค. ๊ทธ๋ฅ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋๊น ์ฐ๋ ๊ฑฐ์ง(...) ํนํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ ๊ฐ์ ์ ์ํด ์ ๊ทผํ๋ ๊ฐ์ข ์๋์ ๊ฒฝ์ฐ ์ธ๊ฐ ๋์ธํฌ์ ์๋ ๋ฐฉ์๊ณผ ์ ํ ๊ด๋ จ์ด ์๋ ๊ฒ์ ๋ฌผ๋ก ์ด๊ณ , ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ด๋ป๊ฒ ์ฑ๋ฅ์ด ๋์์ง๋์ง์ ๊ดํ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์กฐ์ ํ๊ฒ๋ผ๋ ๋ถ์ด ์๋ ๊ฒฝ์ฐ๊ฐ ํจ์ฌ ๋๋ฌผ๋ค. ๊ทธ๋ฅ '์ด๋ ๊ฒ ํ๋๊น ํ์ต์ด ๋ ์ ๋๋๋ผ.' ๋ผ๋ ๋ง์ด ๋๋ ํธ. ๋ถ์กฑํ ๊ฒ์ด ๋ง์ง๋ง ๊ทธ๋ ๊ธฐ์ ๋ฐ์ ํ ์ฌ์ง๊ฐ ๋ง์ ๋ ผ๋ฆฌ์ด๋ฉฐ, ์ฌ๋๋ค์ด ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์ ๊ดํด์ ์ธ๊ฐ์ ์ง๋ฅ์ ๋ฐ์ด๋๋ ๊ฐ์ธ๊ณต์ง๋ฅ, ๋ฐ๋ฌ์ ์ถ๊ตฌํ๋ ์ธ๊ณต'์ง์ฑ'์ด ํด๊ฒฐํ๊ธฐ๋ฅผ ๋ฐ๋ผ๋ ๊ฐ์ฅ ํฐ ์ด์ ์ด๊ธฐ๋ ํ๋ค.
2013๋ ์ฆ์๋ถํฐ ํ์ฌ๊น์ง ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
3. ์ข ๋ฅ[ํธ์ง]
์๋ '์ข
๋ฅ'๋ผ๋ ๊ฑด ํ ํ๋ก๊ทธ๋จ์ ํ๋๋ง ์ฐ์ด๋ ๊ฒ์ด ์๋๋ค. ๊ฐ๋ น ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ธ์ด ์ฒ๋ฆฌ๋ฅผ ๋์์ ํ๊ธฐ ์ํด CNN๊ณผ RNN์ ๋์์ ์ฌ์ฉํ ์๋ ์๋ค.
3.1. Perceptron[ํธ์ง]
Perceptron์ ์์์ ์ค๋ช
ํ ๋ด๋ฐ์ ์ํ์ ๋ชจ๋ธ์ ์ผ์ปซ๋ ์ฉ์ด์ด๊ธฐ๋ ํ๊ณ , ์ต์ด๋ก ์ ์๋ ์ ๊ฒฝ๋ง ํ๋ก๊ทธ๋จ ์๊ณ ๋ฆฌ์ฆ (1957)์ด๊ธฐ๋ ํ๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฆ ๊ทธ๋๋ก ํ๋์ ๋ด๋ฐ์ ์ฌ์ฉํ๋ฉฐ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช
ํ ์ ์๋ ์ต์ ์ ํจ๋ฌ๋ฏธํฐ( )๊ฐ์ ์ฐพ๋๋ค.
ํ์ต์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ ํ ๊ฒฐ๊ณผ๊ฐ ์ํ๋ ๊ฒฐ๊ณผ๋ณด๋ค ํฌ๋ฉด ๊ฒฐ๊ณผ๊ฐ ์์์ง๊ฒ ํจ๋ฌ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๊ณ ์ํ๋ ๊ฒฐ๊ณผ๋ณด๋ค ์์ผ๋ฉด ์ปค์ง๊ฒ ํจ๋ฌ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ๋ฐ๋ณตํ๋ค. ์ด๊ฒ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ perceptron convergence theorem์ด๋ ์ด๋ฆ์ผ๋ก ์ฆ๋ช ์ด ๋์ด ์๋ค.
๊ทธ๋ฌ๋ ๋น์ ํํจ์๋ฅผ ํ์ตํ ์ ์๊ธฐ์ ์ด ๋ฐฉ๋ฒ์ด ์ฌ์ฅ๋๋ค. ์ ๋ ฅ์ธต๊ณผ ์ถ๋ ฅ์ธต๋ง ์๋ ํผ์ ํธ๋ก ์ผ๋ก๋ XOR ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ MLP๊ฐ ๋์ค๊ฒ ๋๋ค.
ํ์ต์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ ํ ๊ฒฐ๊ณผ๊ฐ ์ํ๋ ๊ฒฐ๊ณผ๋ณด๋ค ํฌ๋ฉด ๊ฒฐ๊ณผ๊ฐ ์์์ง๊ฒ ํจ๋ฌ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๊ณ ์ํ๋ ๊ฒฐ๊ณผ๋ณด๋ค ์์ผ๋ฉด ์ปค์ง๊ฒ ํจ๋ฌ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ๋ฐ๋ณตํ๋ค. ์ด๊ฒ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ perceptron convergence theorem์ด๋ ์ด๋ฆ์ผ๋ก ์ฆ๋ช ์ด ๋์ด ์๋ค.
๊ทธ๋ฌ๋ ๋น์ ํํจ์๋ฅผ ํ์ตํ ์ ์๊ธฐ์ ์ด ๋ฐฉ๋ฒ์ด ์ฌ์ฅ๋๋ค. ์ ๋ ฅ์ธต๊ณผ ์ถ๋ ฅ์ธต๋ง ์๋ ํผ์ ํธ๋ก ์ผ๋ก๋ XOR ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ MLP๊ฐ ๋์ค๊ฒ ๋๋ค.
3.1.1. Multi Layer Perceptron (MLP)[ํธ์ง]
๋ง๊ทธ๋๋ก ์ฌ๋ฌ๊ฐ์ Perceptron์ ์ฐ๊ฒฐ์์ผ ์ธต(Layer)์ ๋ง๋ค๊ณ , ์ด ์ธต๋ค์ ์ค์ฒฉ์์ผ ๋ค์ธต (Multi Layer)์ผ๋ก ๋ง๋ ๊ฒ์ด๋ค.
์ฌ๋ฌ๊ฐ์ Perceptron์ด ํ๋์ ์ธต(Layer)์ ๊ตฌ์ฑํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก 3~6๊ฐ ์ ๋์ ์ธต์ ๋๋ฉฐ, ์ด๋ค์ ๊ฐ๊ฐ ์ ๋ ฅ์ธต(Input layer), ์๋์ธต(Hidden layer), ์ถ๋ ฅ์ธต(Output layer) ์ผ๋ก ๊ตฌ๋ถํ์ฌ ๋ถ๋ฅธ๋ค. ํ์์ด์์ผ๋ก ๋ง์ ์ธต์ ๋๋ ๊ฒ์ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๊ณ ์๋ ค์ ธ์๋ค. ์ฒ์์๋ ์ค๊ฐ์ ์กด์ฌํ๋ ์๋์ธต์ ํ์ต์ํฌ ๋ฐฉ๋ฒ์ด ์๊ธฐ์ ์ฌ์ฅ๋์์ง๋ง, ํด๊ฒฐํ ๋ฐฉ๋ฒ์ ๊พธ์คํ ์ฐ๊ตฌํ ๊ฒฐ๊ณผ ์ญ์ ํ(backpropagation) ์๊ณ ๋ฆฌ์ฆ (1986)์ด ๋ฐ๋ช ๋์ด ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค. ์ ๊ฒฝ๋ง๊ณํต ์๊ณ ๋ฆฌ์ฆ๋ต๊ฒ ์ด์ฐฝ๊ธฐ์ ๋ฐ์งํ๋ฉฐ ์ ๋๋กฌ์ ์ผ์ผํฌ์ ๋๋ก ๊ด์ฌ์ ๋ฐ์๋ค. ๊ทธ๋ฌ๋ ์ฌ๋ผ์ง๋ ๊ฒฝ์ฌ ๋ฌธ์ [2], ๊ณผ์ ํฉ ๋ฌธ์ ๋ฑ์ด ์์๊ณ ๋น์ ์ฐ์ฐ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์ฌํ๊ธฐ ๋๋ฌธ์ ๊ธ์ ์ฌ์ฅ๋๊ณ ๋ง๋ค.
์ฌ๋ฌ๊ฐ์ Perceptron์ด ํ๋์ ์ธต(Layer)์ ๊ตฌ์ฑํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก 3~6๊ฐ ์ ๋์ ์ธต์ ๋๋ฉฐ, ์ด๋ค์ ๊ฐ๊ฐ ์ ๋ ฅ์ธต(Input layer), ์๋์ธต(Hidden layer), ์ถ๋ ฅ์ธต(Output layer) ์ผ๋ก ๊ตฌ๋ถํ์ฌ ๋ถ๋ฅธ๋ค. ํ์์ด์์ผ๋ก ๋ง์ ์ธต์ ๋๋ ๊ฒ์ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๊ณ ์๋ ค์ ธ์๋ค. ์ฒ์์๋ ์ค๊ฐ์ ์กด์ฌํ๋ ์๋์ธต์ ํ์ต์ํฌ ๋ฐฉ๋ฒ์ด ์๊ธฐ์ ์ฌ์ฅ๋์์ง๋ง, ํด๊ฒฐํ ๋ฐฉ๋ฒ์ ๊พธ์คํ ์ฐ๊ตฌํ ๊ฒฐ๊ณผ ์ญ์ ํ(backpropagation) ์๊ณ ๋ฆฌ์ฆ (1986)์ด ๋ฐ๋ช ๋์ด ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค. ์ ๊ฒฝ๋ง๊ณํต ์๊ณ ๋ฆฌ์ฆ๋ต๊ฒ ์ด์ฐฝ๊ธฐ์ ๋ฐ์งํ๋ฉฐ ์ ๋๋กฌ์ ์ผ์ผํฌ์ ๋๋ก ๊ด์ฌ์ ๋ฐ์๋ค. ๊ทธ๋ฌ๋ ์ฌ๋ผ์ง๋ ๊ฒฝ์ฌ ๋ฌธ์ [2], ๊ณผ์ ํฉ ๋ฌธ์ ๋ฑ์ด ์์๊ณ ๋น์ ์ฐ์ฐ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์ฌํ๊ธฐ ๋๋ฌธ์ ๊ธ์ ์ฌ์ฅ๋๊ณ ๋ง๋ค.
3.2. ์ฌ์ธตํ์ต(Deep Learning)[ํธ์ง]
์ฌ์ธตํ์ต ๋ฌธ์ ์ฐธ์กฐ
3.2.1. Convolutional Neural Network(CNN)[ํธ์ง]
1989๋
์ธ๊ฐ์ ์์ ๊ฒฝ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ฐฉํด ๋ง๋ค์ด์ง ์ธ๊ณต์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ. ๋ค์์ Convolutional Layer(์ด๋์ ์์ ํ๋ ฌ์ ํํฐ๋ผ ๋ถ๋ฅธ๋ค)์ผ๋ก ๋ถํฐ ํน์ง๋งต(Feature map)์ ์ถ์ถํ๊ณ ์๋ธ์ํ๋ง(Subsampling)์ ํตํด ์ฐจ์์ ์ถ์ํ์ฌ ํน์ง๋งต์์ ์ค์ํ ๋ถ๋ถ๋ง์ ๊ฐ์ ธ์จ๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ, semantic segmentation, optical flow๋ฑ๋ฑ ๋๋ถ๋ถ์ ์ปดํจํฐ ๋น์ (computer vision)๋ถ์ผ์์ ํ์์ ์ผ๋ก ์ฌ์ฉ๋๋ ๊ธฐ์ ์ด๋ฉฐ, ๊ธฐ์กด์ mlp์ ๋นํด ์ ์ ์ฐ์ฐ๋๊ณผ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ๊ฐ๊ด๋ฐ๊ณ ์๋ค.
ML ๊ธฐ์ ์ ์ ๊ตฌ์ ์ค ํ๋ช ์ธ ์ ๋ฅด์ฟค์ด ๊ฐ๋ฐํ LeNet์ด ์ด๊ธฐ CNN ๊ตฌ์กฐ์ ๋ํ์ ์ธ ์ญํ ์ ํ๊ณ , ์ดํ ImageNet ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ํ์์ InceptionV3 ๋ฑ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ค์ด ๋์ค๋ฉฐ ์ฑ๋ฅ์ด ๋น์ฝ์ ์ผ๋ก ๊ฐ์ ๋์๋ค. ์์ฆ์๋ ResNet์ ์์ฃผ ์ฐ๋๋ฐ, TfNet์ด๋ Torchvision์์ ์ ๊ณตํ๋ pretrained weights๋ฅผ ์ฌ์ฉํ์ฌ transfer learning์ ํ๋ฉด ๋ง์ ๋ถ์ผ์์ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ฝ์์ฃผ๊ธฐ ๋๋ฌธ์ ์ ์ฉ๋๋ค. ResNet์ ๋ฌด๊ฑฐ์์ ํด๊ฒฐํ๊ธฐ ์ํ MobileNetV2๋ EfficientNet๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
ํ๋จ์ RNN๊ณผ ์ตํฉํ R-CNN์ด๋ผ๋ ๋ฌผ๊ฑด๋ ์๋ค. Object Detection ํ ๋ ์ฌ์ฉํ๋ค.
ML ๊ธฐ์ ์ ์ ๊ตฌ์ ์ค ํ๋ช ์ธ ์ ๋ฅด์ฟค์ด ๊ฐ๋ฐํ LeNet์ด ์ด๊ธฐ CNN ๊ตฌ์กฐ์ ๋ํ์ ์ธ ์ญํ ์ ํ๊ณ , ์ดํ ImageNet ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ํ์์ InceptionV3 ๋ฑ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ค์ด ๋์ค๋ฉฐ ์ฑ๋ฅ์ด ๋น์ฝ์ ์ผ๋ก ๊ฐ์ ๋์๋ค. ์์ฆ์๋ ResNet์ ์์ฃผ ์ฐ๋๋ฐ, TfNet์ด๋ Torchvision์์ ์ ๊ณตํ๋ pretrained weights๋ฅผ ์ฌ์ฉํ์ฌ transfer learning์ ํ๋ฉด ๋ง์ ๋ถ์ผ์์ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ฝ์์ฃผ๊ธฐ ๋๋ฌธ์ ์ ์ฉ๋๋ค. ResNet์ ๋ฌด๊ฑฐ์์ ํด๊ฒฐํ๊ธฐ ์ํ MobileNetV2๋ EfficientNet๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
ํ๋จ์ RNN๊ณผ ์ตํฉํ R-CNN์ด๋ผ๋ ๋ฌผ๊ฑด๋ ์๋ค. Object Detection ํ ๋ ์ฌ์ฉํ๋ค.
3.2.2. Recurrent Neural Network[ํธ์ง]
๋ด๋ฐ์ ์ถ๋ ฅ์ด ๋ค์ ์
๋ ฅ์ผ๋ก feedback๋๋ ์ฌ๊ท์ ์ธ ์ฐ๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ ์ ๊ฒฝ๋ง. ๋ค์ธต ํผ์
ํธ๋ก ์ ๊ฒฝ๋ง์ ์
๋ ฅ์ด ์ถ๋ ฅ ๋ฐฉํฅ์ผ๋ก๋ง ํ์ฑํ๋๊ณ ์๋ ๋ด๋ฐ์ด ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ค. ์ด๋ฌ๋ฉด ์
๋ ฅ์ด ๋ค์ด์จ ๋ฌธ๋งฅ์ ๊ธฐ์ตํ ์ ์๋ค. ์ด๋ฐ ๋จ์ ์ ์๊ณ์ด๋ถ์[3] ๊ด๋ จ ๋ฌธ์ ์์ ๋งค์ฐ ํด๋กญ๋ค. RNN์ ์ด๋ฐ ๋จ์ ์ ํด๊ฒฐํ๋ค.
์์์ ๋ฌด์จ ๋จ์ด๊ฐ ๋์๋์ง์ ๋ฌธ๋งฅ์ด ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธก(prediction)ํ๋ ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฐ ์ ์ฉํ๋ค. ์ด๋ฐ ๋ฌธ์ ์๋ ์์ฑ ์ธ์, ํ๊ธฐ์ฒด ์ธ์, ํ ์ค์ฒ ์ธ์์ด ์๋ค. ๋ ๋ถ๋ฅ์๋ ์ ์ฉํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ญ์น๋ฅผ ์ด์ฉํ ๊ธฐ๊ณ ๋ฒ์ญ์ ๋์์ด ๋์๋ค.
๊ธฐ์กด์ DNN(Deep Neural Networks)์ ๊ฒฝ์ฐ ๊ฐ layer๋ง๋ค parameter๋ค์ด ๋ ๋ฆฝ์ ์ด์์ผ๋, RNN์ ์ด๋ฅผ ๊ณต์ ํ๊ณ ์๋ค. ๋ฐ๋ผ์ ํ์ฌ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ ์ด์ time step์ ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฐ์ผ๋ฉฐ, hidden layer๋ ์ผ์ข ์ ๋ฉ๋ชจ๋ฆฌ ์ญํ ์ ํ๊ฒ ๋๋ค.
RNN์ ๊ธฐ๋ณธ์ ์๋์๋ฆฌ๋ ht = g1 ( xtU + Wh(t-1) + bx), ot = g2 (Vh(t)+bh) ์ด๋ค.
g1 g2 : ๋น์ ํ ํ์ฑํ ํจ์ (Sigmoid, tanh ๋ฑ)
xt: ์ ๋ ฅ๊ฐ
ht: t(์๊ฐ)๋จ๊ณ์ ์๋๋ณ์ (hidden state)
ot: t(์๊ฐ)๋จ๊ณ์ ์ถ๋ ฅ๊ฐ
b: ํธํฅ (bias)
UVW: xt ht ht-1์ ๊ฐ์ค์น (weight)
์ ์์์ ์ ๋ ฅ X = (x1 , x2 , x3 , ... , xn)์ด ์ ๋ ฅ๋๋ฉด ot๊ฐ ์ถ๋ ฅ๋๋ค.
๋ณ์ข ์ผ๋ก Bi-directional RNN์ด ์๋ค. ์ด ๋ชจ๋ธ์ ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ ์ํ๋ ๋ฐ์ํ๋ค. ์ธ์ด ๋ชจ๋ธ๋ง์ ํ ๋ ์๋ค ๋จ์ด๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ๊ฒ ๋๋ฏ๋ก ์ ํ์ฑ์ด ๋์์ง๋ค. ํ์ง๋ง ํ์ต์ด ์ค๋ซ๋์ ์งํ์ง๋ฉด์ ์ด๊ธฐ ํ์ต์ด ์ํ์ง ๋จ์ ์ด ์๋ค.
ํ์ง๋ง ์ ํต์ ์ธ RNN ๋ชจํ ๋ฐ Bi-directional RNN์ ๊ฒฝ์ฐ Vanishing gradient problem์ ์ง๋๋ค. [4]
์ด ํด๊ฒฐ์ฑ ์ผ๋ก ์ ์๋๊ณ ์๋ ๊ฒ์ด ๋ค์ ์๊ณ ๋ฆฌ์ฆ๋ค์ด๋ค.
์์์ ๋ฌด์จ ๋จ์ด๊ฐ ๋์๋์ง์ ๋ฌธ๋งฅ์ด ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธก(prediction)ํ๋ ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฐ ์ ์ฉํ๋ค. ์ด๋ฐ ๋ฌธ์ ์๋ ์์ฑ ์ธ์, ํ๊ธฐ์ฒด ์ธ์, ํ ์ค์ฒ ์ธ์์ด ์๋ค. ๋ ๋ถ๋ฅ์๋ ์ ์ฉํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ญ์น๋ฅผ ์ด์ฉํ ๊ธฐ๊ณ ๋ฒ์ญ์ ๋์์ด ๋์๋ค.
๊ธฐ์กด์ DNN(Deep Neural Networks)์ ๊ฒฝ์ฐ ๊ฐ layer๋ง๋ค parameter๋ค์ด ๋ ๋ฆฝ์ ์ด์์ผ๋, RNN์ ์ด๋ฅผ ๊ณต์ ํ๊ณ ์๋ค. ๋ฐ๋ผ์ ํ์ฌ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ ์ด์ time step์ ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฐ์ผ๋ฉฐ, hidden layer๋ ์ผ์ข ์ ๋ฉ๋ชจ๋ฆฌ ์ญํ ์ ํ๊ฒ ๋๋ค.
RNN์ ๊ธฐ๋ณธ์ ์๋์๋ฆฌ๋ ht = g1 ( xtU + Wh(t-1) + bx), ot = g2 (Vh(t)+bh) ์ด๋ค.
g1 g2 : ๋น์ ํ ํ์ฑํ ํจ์ (Sigmoid, tanh ๋ฑ)
xt: ์ ๋ ฅ๊ฐ
ht: t(์๊ฐ)๋จ๊ณ์ ์๋๋ณ์ (hidden state)
ot: t(์๊ฐ)๋จ๊ณ์ ์ถ๋ ฅ๊ฐ
b: ํธํฅ (bias)
UVW: xt ht ht-1์ ๊ฐ์ค์น (weight)
์ ์์์ ์ ๋ ฅ X = (x1 , x2 , x3 , ... , xn)์ด ์ ๋ ฅ๋๋ฉด ot๊ฐ ์ถ๋ ฅ๋๋ค.
๋ณ์ข ์ผ๋ก Bi-directional RNN์ด ์๋ค. ์ด ๋ชจ๋ธ์ ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ ์ํ๋ ๋ฐ์ํ๋ค. ์ธ์ด ๋ชจ๋ธ๋ง์ ํ ๋ ์๋ค ๋จ์ด๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ๊ฒ ๋๋ฏ๋ก ์ ํ์ฑ์ด ๋์์ง๋ค. ํ์ง๋ง ํ์ต์ด ์ค๋ซ๋์ ์งํ์ง๋ฉด์ ์ด๊ธฐ ํ์ต์ด ์ํ์ง ๋จ์ ์ด ์๋ค.
ํ์ง๋ง ์ ํต์ ์ธ RNN ๋ชจํ ๋ฐ Bi-directional RNN์ ๊ฒฝ์ฐ Vanishing gradient problem์ ์ง๋๋ค. [4]
์ด ํด๊ฒฐ์ฑ ์ผ๋ก ์ ์๋๊ณ ์๋ ๊ฒ์ด ๋ค์ ์๊ณ ๋ฆฌ์ฆ๋ค์ด๋ค.
- LSTM
- elman NN: RNN์ context layer๊ฐ ์ถ๊ฐ๋์ด ์์ด vanishing gradient problem์ ์ด๋ ์ ๋ ํด๊ฒฐํ๋ค. context layer๋ hidden layer์์ ๋์จ ๊ฒฐ๊ณผ ์ค ๊ธฐ์ตํ๊ณ ์ถ์ ๋ถ๋ถ์ ์ ์ฅํด ๋์๋ค๊ฐ ํ์ํ ๋ ๊บผ๋ด์ฌ ์ ์๋ ํผ๋๋ฐฑ ์ ํธ ์ญํ ์ ํ๋ค.
3.2.2.1. Long Short Term Memory[ํธ์ง]
1997๋
๋์จ RNN์ ๊ฐ์ ํ. ํ์ต์ด ์ค๋ ์ง์๋ ๊ฒฝ์ฐ ์ด๊ธฐ ํ์ตํ ๋ด์ฉ์ด ์ํ์ง๋ค๋ ๋จ์ ์ด ์๋๋ฐ ์ด๋ฅผ ๊ฐ์ ํ architecture์ด๋ค. RNN์ ์
๋ ฅ, forget, ์ถ๋ ฅ ๋ถ๋ถ์ Gate๋ผ๋ ์
๋ค์ ๋ถ์ฌ ๊ฐ์ ์กฐ์ ํ๋ค. Forget gate๋ ์ด์ ์ํ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ง๋ฅผ ๊ฒฐ์ ํ๊ณ , input gate๋ ์
๋ ฅ๋๋ ์๋ก์ด ์ ๋ณด๋ฅผ ์ ์ฅํ ์ง ๊ฒฐ์ ํ๊ณ , output gate๋ ๊ฐฑ์ ๋ cell์ ์ถ๋ ฅ๊ฐ์ ์ ์ดํ๋ค.
๋ง๊ฐ ๊ฒ์ดํธ (forget gate)๋ ๊ธฐ์กด์ ์์๋ณ์๋ฅผ ์ผ๋ง๋ ์์ด๋ฒ๋ฆด์ง ๊ฒฐ์ ํ๋ค. ft = ฯ (Uf xt + Wf ht-1 + bf)์ด๋ค.
Uf xt + Wf ht-1 + bf๋ xt, ht-1 , b์ ๊ฐ์คํฉ์ด๋ค. ft๋ ์ด ๊ฐ์คํฉ์ sigmoidํจ์(ฯ)๋ฅผ ์์ด ๊ฒ์ด๋ค. 1์ ๋ชจ๋ ๊ธฐ์ตํ๊ฒ ๋ค๋ ๋ป์ด๊ณ 0์ ๋ชจ๋ ์์ด๋ฒ๋ฆฐ๋ค๋ ๋ป์ด๋ค.
๋ง๊ฐ ๊ฒ์ดํธ (forget gate)๋ ๊ธฐ์กด์ ์์๋ณ์๋ฅผ ์ผ๋ง๋ ์์ด๋ฒ๋ฆด์ง ๊ฒฐ์ ํ๋ค. ft = ฯ (Uf xt + Wf ht-1 + bf)์ด๋ค.
Uf xt + Wf ht-1 + bf๋ xt, ht-1 , b์ ๊ฐ์คํฉ์ด๋ค. ft๋ ์ด ๊ฐ์คํฉ์ sigmoidํจ์(ฯ)๋ฅผ ์์ด ๊ฒ์ด๋ค. 1์ ๋ชจ๋ ๊ธฐ์ตํ๊ฒ ๋ค๋ ๋ป์ด๊ณ 0์ ๋ชจ๋ ์์ด๋ฒ๋ฆฐ๋ค๋ ๋ป์ด๋ค.
3.2.2.1.1. Gated Recurrent Unit[ํธ์ง]
2014๋ ๋ด์๋ํ๊ต ์กฐ๊ฒฝํ ๊ต์๊ฐ ๋ฐํํ, LSTM์ ์ฅ๊ธฐ๊ธฐ์ต๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ์ฐ์ฐ์ ์ ์ ๋ชจ๋ธ์ด๋ค.
3.3. ๊ฐํํ์ต[ํธ์ง]
3.4. ์งํ์ ๋ต[ํธ์ง]
2018๋
์งํ์ ๋ต ๊ฐ๋ฐ์ค openAI
3.5. ํผํฉ๋ชจ๋ธ[ํธ์ง]
3.5.1. ์คํ ์ธ์ฝ๋[ํธ์ง]
์๊ธฐ๋ถํธํ๊ธฐ (Autoencoder)
์ด๋ฏธ์ง ๊ฐ์ ๋ณต์กํ ๋ฐ์ดํฐ๋ ๋์ ์ฐจ์์ ์กด์ฌํ๋ค. ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ผ๋ก ํํํ๋ฉด ์ฒ๋ฆฌ๊ฐ ๊ฐ๋จํด์ง ์ ์๋ค. ์ด ๋๋ฌธ์ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๋ ค๋ ๋ ธ๋ ฅ๋ค์ด ์์ด ์๋ค. ๊ทธ ์๋ก Singular Value Decomposition (SVD) ํน์ ์ฃผ์ฑ๋ถ ๋ถ์ (PCA)์ด ์๋ค. RNN ์ญ์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ ์ผ๋ก ์ด์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์๋ ์ํ๋ฅผ ์ถ๋ก ํ์ฌ ๋ฌธ์ ๋ฅผ ํ์ด ๋๊ฐ๋ค. ์ด๋ ๊ฒ ์ฐจ์์ ์ถ์ํ๋ฉด ๋ถ๋ฅ๋ ์ฌ์์ง๋ค.
์ ๋ณด๋ฅผ ์์ถํ๋ ์ธ์ฝ๋์ ์์ถ๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ ๋์ฝ๋๋ฅผ ๋ง๋ค ์ ์๋ค. ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ์ ํจ์จ์ ์ธ ์ธ์ฝ๋ฉ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค.[5] ์ธ๊ณต์ ๊ฒฝ๋ง์์ ์ ๋ ฅ ๋ ์ด์ด์ ๋ด๋ฐ๊ณผ ์ถ๋ ฅ ๋ ์ด์ด์ ๋ด๋ฐ์ ๊ฐ์ ๊ฐ์๋ก ๋๊ณ , ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๊ฐ์ ๊ฐ์ด ๋๊ฒ๋ ์ ๊ฒฝ๋ง์ ํ์ต์ํค๊ฒ ๋๋ค. ์ด๋ ๊ฒ ํ๊ณ ์๋์ธต์ ์๋ ๋ด๋ฐ์ ๊ฐ์๋ฅผ ์ ๋ ฅ์ธต์ ๋ด๋ฐ์ ๊ฐ์๋ณด๋ค ์ ๊ฒ ํ์ฌ ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ฉด, ์ ๋ ฅ์ธต์์ ์๋์ธต์ผ๋ก ๊ฐ๋ ๊ณผ์ ์ ์ธ์ฝ๋ฉ ๊ณผ์ ์ด ๋๊ณ , ์๋์ธต์์ ์ถ๋ ฅ์ธต์ผ๋ก ๊ฐ๋ ๊ณผ์ ์ ๋์ฝ๋ฉ ๊ณผ์ ์ด ๋๋ค. ์ด ๋ ์๋์ธต์ ๊ฐ ๋ด๋ฐ์ ํ์ฑํ ์ ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์๋ก์ด ์ฝ๋๊ฐ ๋๋ค. ์ ํ ๋ด๋ฐ์ ์ฌ์ฉํ๋ฉด ์คํ ์ธ์ฝ๋์ ๊ฒฐ๊ณผ๋ PCA์ ๊ฑฐ์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์ ํ ๋ด๋ฐ ๋์ ์๊ทธ๋ชจ์ด๋ ๋ด๋ฐ์ ์ฌ์ฉํจ์ผ๋ก์จ ๋น์ ํ์ ์ธ ์ฝ๋ฉ์ ์ป์ ์ ์๊ฒ ๋๋ค.
์คํ ์ธ์ฝ๋๋ฅผ ํ ๋ฒ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํ ๋ฒ์ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ ์๋ ์์ง๋ง, ๋ด๋ฐ์ ๊ฐ์๊ฐ ํฌ๊ฒ ์ค์ด๋ค๊ฒ ๋๋ฉด ์ ๊ฒฝ๋ง์ ํ์ต์ด ์ด๋ฃจ์ด์ง๊ธฐ ์ด๋ ต๊ณ , ์ ๊ฒฝ๋ง์ ํํ ๋ฅ๋ ฅ๋ ๋จ์ด์ง๊ฒ ๋๋ค. ์ ๊ฒฝ๋ง์ ํํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ์ฌ ์คํ ์ธ์ฝ๋๋ฅผ ์์ ์ฌ๋ฆฌ๊ฒ ๋๋๋ฐ ๊ฐ๊ฐ์ ์คํ ์ธ์ฝ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํํํ ์ ์๋ ์กฐ๊ธ ๋ ์ข์ ์ฝ๋๋ฅผ ์ฐพ๊ฒ ๋๊ณ ์ต์์ ์คํ ์ธ์ฝ๋๋ ๋งค์ฐ ์ ์ ์์ ์ฝ๋๋ก ์ฒ์ ์ฃผ์ด์ง ์ ๋ ฅ๊ฐ์ ํํํ ์ ์๊ฒ ๋๋ค.
๋จ, ์์ ์ฌ๋ฆฐ ์คํ ์ธ์ฝ๋๋ ์ผ๋ฐ์ ์ธ ์ญ์ ํ(back propagation) ๋ฐฉ๋ฒ์ผ๋ก๋ ํ์ต์ด ์ ๋์ง ์๋๋ฐ ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด์ RBM(Restricted Boltzmann Machine)์ ์ด์ฉํด ์คํ ์ธ์ฝ๋๋ฅผ ๋ฏธ๋ฆฌ ํ์ต์ํค๊ณ , ๋ฏธ๋ฆฌ ํ์ต๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๊ธฐ ์ถ์ธก์ผ๋ก ์ฌ์ฉํ์ฌ ์ญ์ ํ ๋ฐฉ๋ฒ์ผ๋ก ํ๋ํ๋ฉด ์์ ์ฌ๋ฆฐ ์คํ ์ธ์ฝ๋๋ฅผ ์ ๋๋ก ํ์ตํ ์ ์๊ฒ ๋๋ค.
๋ฐ๋๋ก, ์คํ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ด์ฉํ๋ฉด ์ถ์๋ ๊ณต๊ฐ์์ ์์์ ์ ์ ํด๋นํ๋ ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์๊ณต๊ฐ์์ ์์ฑํด๋ผ ์ ์๋ค. ๊ฒฐํจ ๋ฐ์ดํฐ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ถ์กฑํ ๊ณ ์ฅ์ง๋จ ๋ถ์ผ์ ๊ฒฝ์ฐ (๋ฐ์ดํฐ ๋ถํํ ๋ฌธ์ ), ์ถ์๋ ๊ณต๊ฐ์์์ ๊ณ ์ฅ๋ถํฌ๋ฅผ ํ์ ํ์ฌ ์ด์ ํด๋นํ๋ ๋ค์ํ ๊ณ ์ฅ๋ฐ์ดํฐ๋ฅผ ๊ฐ์์ผ๋ก ์์ฑํ ๋ ์ฌ์ฉํ ์ ์๋ค. ์ด๋ฐ์๋ ์ ๋ณด๋ฅผ ์์ถํ๊ณ ๋ณต์ํ๋ ๊ตฌ์กฐ๋ก Convolutional layer ๋ฅผ ํตํ ์คํ ์ธ์ฝ๋ ๋ฐฉ๋ฒ (Convolutional Autoencoder), ๋ฒ ์ด์ง์์ ์ฌ๊ณ ๋ฅผ ๋ฐํ์ผ๋ก ์ ๊ฒฝ๋ง์ ์ต์ ํ์ํค๋ ๋ฐฉ๋ฒ (Variational Autoencoder) ๋ฑ์ด ์ ์๋์๋ค.
๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค. ์ ๋ ฅ ๊ฐ x๊ฐ ์ฃผ์ด์ง๋ฉด ์ธ์ฝ๋๋ฅผ ํตํด ์์ถ๋ ๋ฐ์ดํฐ y๋ก ๋ณํํ๊ณ ๋์ฝ๋๋ฅผ ํตํด ์์ถ๋ ๋ฐ์ดํฐ y๋ฅผ z๋ก ํ์ด๋ธ๋ค.
y = fฮธ(x) = s (Wx+b)
z = gฮธ(y) = s (W'y + b')
์ด๋ฏธ์ง ๊ฐ์ ๋ณต์กํ ๋ฐ์ดํฐ๋ ๋์ ์ฐจ์์ ์กด์ฌํ๋ค. ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ผ๋ก ํํํ๋ฉด ์ฒ๋ฆฌ๊ฐ ๊ฐ๋จํด์ง ์ ์๋ค. ์ด ๋๋ฌธ์ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๋ ค๋ ๋ ธ๋ ฅ๋ค์ด ์์ด ์๋ค. ๊ทธ ์๋ก Singular Value Decomposition (SVD) ํน์ ์ฃผ์ฑ๋ถ ๋ถ์ (PCA)์ด ์๋ค. RNN ์ญ์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ ์ผ๋ก ์ด์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์๋ ์ํ๋ฅผ ์ถ๋ก ํ์ฌ ๋ฌธ์ ๋ฅผ ํ์ด ๋๊ฐ๋ค. ์ด๋ ๊ฒ ์ฐจ์์ ์ถ์ํ๋ฉด ๋ถ๋ฅ๋ ์ฌ์์ง๋ค.
์ ๋ณด๋ฅผ ์์ถํ๋ ์ธ์ฝ๋์ ์์ถ๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ ๋์ฝ๋๋ฅผ ๋ง๋ค ์ ์๋ค. ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ์ ํจ์จ์ ์ธ ์ธ์ฝ๋ฉ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค.[5] ์ธ๊ณต์ ๊ฒฝ๋ง์์ ์ ๋ ฅ ๋ ์ด์ด์ ๋ด๋ฐ๊ณผ ์ถ๋ ฅ ๋ ์ด์ด์ ๋ด๋ฐ์ ๊ฐ์ ๊ฐ์๋ก ๋๊ณ , ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๊ฐ์ ๊ฐ์ด ๋๊ฒ๋ ์ ๊ฒฝ๋ง์ ํ์ต์ํค๊ฒ ๋๋ค. ์ด๋ ๊ฒ ํ๊ณ ์๋์ธต์ ์๋ ๋ด๋ฐ์ ๊ฐ์๋ฅผ ์ ๋ ฅ์ธต์ ๋ด๋ฐ์ ๊ฐ์๋ณด๋ค ์ ๊ฒ ํ์ฌ ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ฉด, ์ ๋ ฅ์ธต์์ ์๋์ธต์ผ๋ก ๊ฐ๋ ๊ณผ์ ์ ์ธ์ฝ๋ฉ ๊ณผ์ ์ด ๋๊ณ , ์๋์ธต์์ ์ถ๋ ฅ์ธต์ผ๋ก ๊ฐ๋ ๊ณผ์ ์ ๋์ฝ๋ฉ ๊ณผ์ ์ด ๋๋ค. ์ด ๋ ์๋์ธต์ ๊ฐ ๋ด๋ฐ์ ํ์ฑํ ์ ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์๋ก์ด ์ฝ๋๊ฐ ๋๋ค. ์ ํ ๋ด๋ฐ์ ์ฌ์ฉํ๋ฉด ์คํ ์ธ์ฝ๋์ ๊ฒฐ๊ณผ๋ PCA์ ๊ฑฐ์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์ ํ ๋ด๋ฐ ๋์ ์๊ทธ๋ชจ์ด๋ ๋ด๋ฐ์ ์ฌ์ฉํจ์ผ๋ก์จ ๋น์ ํ์ ์ธ ์ฝ๋ฉ์ ์ป์ ์ ์๊ฒ ๋๋ค.
์คํ ์ธ์ฝ๋๋ฅผ ํ ๋ฒ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํ ๋ฒ์ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ ์๋ ์์ง๋ง, ๋ด๋ฐ์ ๊ฐ์๊ฐ ํฌ๊ฒ ์ค์ด๋ค๊ฒ ๋๋ฉด ์ ๊ฒฝ๋ง์ ํ์ต์ด ์ด๋ฃจ์ด์ง๊ธฐ ์ด๋ ต๊ณ , ์ ๊ฒฝ๋ง์ ํํ ๋ฅ๋ ฅ๋ ๋จ์ด์ง๊ฒ ๋๋ค. ์ ๊ฒฝ๋ง์ ํํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ์ฌ ์คํ ์ธ์ฝ๋๋ฅผ ์์ ์ฌ๋ฆฌ๊ฒ ๋๋๋ฐ ๊ฐ๊ฐ์ ์คํ ์ธ์ฝ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํํํ ์ ์๋ ์กฐ๊ธ ๋ ์ข์ ์ฝ๋๋ฅผ ์ฐพ๊ฒ ๋๊ณ ์ต์์ ์คํ ์ธ์ฝ๋๋ ๋งค์ฐ ์ ์ ์์ ์ฝ๋๋ก ์ฒ์ ์ฃผ์ด์ง ์ ๋ ฅ๊ฐ์ ํํํ ์ ์๊ฒ ๋๋ค.
๋จ, ์์ ์ฌ๋ฆฐ ์คํ ์ธ์ฝ๋๋ ์ผ๋ฐ์ ์ธ ์ญ์ ํ(back propagation) ๋ฐฉ๋ฒ์ผ๋ก๋ ํ์ต์ด ์ ๋์ง ์๋๋ฐ ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด์ RBM(Restricted Boltzmann Machine)์ ์ด์ฉํด ์คํ ์ธ์ฝ๋๋ฅผ ๋ฏธ๋ฆฌ ํ์ต์ํค๊ณ , ๋ฏธ๋ฆฌ ํ์ต๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๊ธฐ ์ถ์ธก์ผ๋ก ์ฌ์ฉํ์ฌ ์ญ์ ํ ๋ฐฉ๋ฒ์ผ๋ก ํ๋ํ๋ฉด ์์ ์ฌ๋ฆฐ ์คํ ์ธ์ฝ๋๋ฅผ ์ ๋๋ก ํ์ตํ ์ ์๊ฒ ๋๋ค.
๋ฐ๋๋ก, ์คํ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ด์ฉํ๋ฉด ์ถ์๋ ๊ณต๊ฐ์์ ์์์ ์ ์ ํด๋นํ๋ ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์๊ณต๊ฐ์์ ์์ฑํด๋ผ ์ ์๋ค. ๊ฒฐํจ ๋ฐ์ดํฐ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ถ์กฑํ ๊ณ ์ฅ์ง๋จ ๋ถ์ผ์ ๊ฒฝ์ฐ (๋ฐ์ดํฐ ๋ถํํ ๋ฌธ์ ), ์ถ์๋ ๊ณต๊ฐ์์์ ๊ณ ์ฅ๋ถํฌ๋ฅผ ํ์ ํ์ฌ ์ด์ ํด๋นํ๋ ๋ค์ํ ๊ณ ์ฅ๋ฐ์ดํฐ๋ฅผ ๊ฐ์์ผ๋ก ์์ฑํ ๋ ์ฌ์ฉํ ์ ์๋ค. ์ด๋ฐ์๋ ์ ๋ณด๋ฅผ ์์ถํ๊ณ ๋ณต์ํ๋ ๊ตฌ์กฐ๋ก Convolutional layer ๋ฅผ ํตํ ์คํ ์ธ์ฝ๋ ๋ฐฉ๋ฒ (Convolutional Autoencoder), ๋ฒ ์ด์ง์์ ์ฌ๊ณ ๋ฅผ ๋ฐํ์ผ๋ก ์ ๊ฒฝ๋ง์ ์ต์ ํ์ํค๋ ๋ฐฉ๋ฒ (Variational Autoencoder) ๋ฑ์ด ์ ์๋์๋ค.
๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค. ์ ๋ ฅ ๊ฐ x๊ฐ ์ฃผ์ด์ง๋ฉด ์ธ์ฝ๋๋ฅผ ํตํด ์์ถ๋ ๋ฐ์ดํฐ y๋ก ๋ณํํ๊ณ ๋์ฝ๋๋ฅผ ํตํด ์์ถ๋ ๋ฐ์ดํฐ y๋ฅผ z๋ก ํ์ด๋ธ๋ค.
y = fฮธ(x) = s (Wx+b)
z = gฮธ(y) = s (W'y + b')
3.5.2. GAN[ํธ์ง]
generative adversarial networks
2014.6 ์ ์๋ ๋ฐฉ์.
Classification (๋ถ๋ฅ) ๋ฌธ์ ๋ ์ ๊ทผ๋ฒ์ discriminative ๋ชจ๋ธ๊ณผ generative model๋ก ๋๋ ์ ์๋ค.
2014.6 ์ ์๋ ๋ฐฉ์.
Classification (๋ถ๋ฅ) ๋ฌธ์ ๋ ์ ๊ทผ๋ฒ์ discriminative ๋ชจ๋ธ๊ณผ generative model๋ก ๋๋ ์ ์๋ค.
- discriminative model (์ง๋ํ์ต์ ์ผ์ข ): ์ ๋ ฅ x์์ ์ถ๋ ฅ y๋ก ๊ฐ๋ ๊ด๊ณ์ธ ์กฐ๊ฑด๋ถํ๋ฅ p(y|x)๋ฅผ ์ถ์ ํ๋ ค๊ณ ์๋ํ๋ค. ํด๋์ค๋ฅผ ๋ถ๋ฅํ๋ ค ํ๋ค. ๋ง์ฝ generative model์์ ๋ง๋ค์ด์ง output์ด ์ค์ ์ธ์ง ์๋์ง ํ๋จํ๋ ํ์ ์ญํ ์ด๋ผ๊ณ ์ต์ด ๋ ผ๋ฌธ์๋ ์์ ๋์ด ์๋ค. ๋ค์ค ํ๊ท๋ถ์, ๋์ด๋ธ ๋ฒ ์ด์ง์ ๋ถ๋ฅ๊ธฐ ๋ฑ.
- generative model (๋น์ง๋ํ์ต์ ์ผ์ข ): p (x,y)์ ์ถ์ ํ๋ ค๊ณ ํ๋ค. ๋ถ๋ฅ ๊ฒฝ๊ณ์ (decision boundary)์ ๋ง๋ค๋ ค๊ณ ํ๋ค. ์ฐ๋ (likelihood)๋ ์ฌํํ๋ฅ (posterior probability)๋ฅผ ์ฌ์ฉํ๋ค. ๋ฐ๋ ๊ธฐ๋ฐ ์ถ์ ๋ฒ๋ค. ์ต์ด ๋ ผ๋ฌธ์๋ ํ์ ์ ์์ด๊ธฐ ์ํด ์ ์ ๋ ๋์ ๋ชจํ์ ์์กฐ ์งํ๋ฅผ ๋ง๋๋ ์์กฐ ์งํ๋ฒ์ด๋ผ๊ณ ๋น์ ๋์ด ์ค๋ช ๋์ด์๋ค.
GAN์ ๋ ๋ชจํ์ ํจ๊ป ์ฌ์ฉํ๊ณ ์๋ก ๊ฒฝ์์ํด์ผ๋ก์จ ์ ํ๋๋ฅผ ํฅ์์ํค๊ณ ์ ํ๋ค.
์ถ์ฒ
)]
)]
์ ์์์ G๋ ์์ฑ ๋ชจ๋ธ, D๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ฐ๋ฆฌํจ๋ค. ์ข๋ณ์ ์์ฑ์๊ฐ ๊ตฌ๋ถ์์ ์ ํ๋๋ฅผ ์ต์ํ์ํค๋ฉด์ ๊ตฌ๋ถ์๋ ์์ ์ ์ ํ๋๋ฅผ ์ต๋ํ์ํค๋ minimax ์ต์ ํ ๋ฌธ์ ๋ฅผ ์๋ฏธํ๋ค. ์ด ๊ฐ์ 0~1๋ก ์ฃผ์ด์ง๋ค.
์ฐ๋ณ์ ๋ ๊ฐ์ ํญ์ผ๋ก ๋๋์ด ์๋๋ฐ ์ด๋ ์ ๋ณด์ด๋ก (์ํ)์์ ์ํธ๋กํผ๋ฅผ ์ต์ํํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.[6] ์ฐ๋ณ ์ฒซ๋ฒ์งธ ํญ์ธ E x~Pdata(x) (log D(x))์ ์ค์ ๋ฐ์ดํฐ x๋ฅผ ์ ๋ ฅ๋ฐ์์ ๋ ์ฌ๋ฐ๋ฅด๊ฒ '์ค์ ๋ฐ์ดํฐ'(D=1)๋ผ๊ณ ํ๋จํ ๊ฒฝ์ฐ ์ต๋ํ๋๋ค. ์ฐ๋ณ ๋๋ฒ์งธ ํญ์ธ Ez~Pz(z) (log (1-D(G(z)))์ ๊ฐ์๋ฐ์ดํฐ (z)๋ฅผ ์ ๋ ฅ๋ฐ์์ ๋ ์ฌ๋ฐ๋ฅด๊ฒ '๊ฐ์๋ฐ์ดํฐ' (D=0)๋ผ๋ ๊ฒ์ ๊ตฌ๋ถํ ๊ฒฝ์ฐ ์ต๋ํ๋๋ค. ์์ฑ์๋ ๊ทธ๋ด๋ฏํ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํจ์ผ๋ก์จ ๋ ๋ฒ์งธ ํญ์ ์ต์ํ์ํค๋ ค๊ณ ๋ ธ๋ ฅํ๋ค.
์คํ ์ธ์ฝ๋์๋ ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค๋ ๊ฐ๋ ๋ง ์์๋ค. ํ์ง๋ง GAN์๋ ๊ฒฝ์์ด๋ผ๋ ์์๊ฐ ๋ค์ด๊ฐ๋ค. GAN์ด ์คํ ์ธ์ฝ๋์ ๋นํด ์์ง์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋ค.
GAN์๋ ๋จ์ ์ด ์๋ค. ์์ฑ์๊ฐ ๊ทธ๋ด๋ฏํ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์ต ์ด๋ฐ๋ถํฐ ์์ฑํ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ํ์ต๋์ง ์๋ ํ์์ด ๋ฐ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์คํ ์ธ์ฝ๋๊ฐ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ ์ฌ ๋ณ์ (latent variable)๋ฅผ ์ถ๋ก ํ ์ ์๋ ๋ฐ ๋นํด GAN์ ์ฐจ์ ์ถ์์ ๊ฐ๋ ์ด ์กด์ฌํ์ง ์๋๋ค.
3.5.2.1. DCGAN[ํธ์ง]
์์์ ์ค๋ช
ํ ๋ฅ CNN๊ณผ GAN์ ํตํฉํ ๊ฐ๋
.
Radford, A. (2016) [7] ๋ ผ๋ฌธ์์ ์์๋์๋ค.
๊ฐ ๋ ์ด์ด์ Convolution layer๋ฅผ ์ฌ์ฉํ๋ค. ๋จ, CNN๊ณผ ๋ฌ๋ฆฌ Pooling layer, Fully connected layer๋ ์ฌ์ฉํ์ง ์๋๋ค. ๋ ์ด์ด ๊ณ์ฐ ๊ฒฐ๊ณผ์ Batch Normalization๋ฅผ ์ฌ์ฉํ๋ค. ํ์ฑ ํจ์(Activation function)์ผ๋ก ReLU ๋์ LeakyReLU๋ฅผ ์ฌ์ฉํ๋ค.
Generator๋ ๋๋ค ์ ๋ ฅ โzโ๊ฐ ์๋ฏธ์๋ ์ ์ฌ ํน์ง (latent feature)์ด ๋๋๋ก ํ์ตํ๋ค. ์ด ๋๋ค ์ ๋ ฅ์ ์๋ฏธ๊ฐ ๋ฌด์์ธ์ง ์ฐ๋ฆฌ๋ ์ ์ ์๋ค.
Radford, A. (2016) [7] ๋ ผ๋ฌธ์์ ์์๋์๋ค.
๊ฐ ๋ ์ด์ด์ Convolution layer๋ฅผ ์ฌ์ฉํ๋ค. ๋จ, CNN๊ณผ ๋ฌ๋ฆฌ Pooling layer, Fully connected layer๋ ์ฌ์ฉํ์ง ์๋๋ค. ๋ ์ด์ด ๊ณ์ฐ ๊ฒฐ๊ณผ์ Batch Normalization๋ฅผ ์ฌ์ฉํ๋ค. ํ์ฑ ํจ์(Activation function)์ผ๋ก ReLU ๋์ LeakyReLU๋ฅผ ์ฌ์ฉํ๋ค.
Generator๋ ๋๋ค ์ ๋ ฅ โzโ๊ฐ ์๋ฏธ์๋ ์ ์ฌ ํน์ง (latent feature)์ด ๋๋๋ก ํ์ตํ๋ค. ์ด ๋๋ค ์ ๋ ฅ์ ์๋ฏธ๊ฐ ๋ฌด์์ธ์ง ์ฐ๋ฆฌ๋ ์ ์ ์๋ค.
3.5.2.2. cGAN[ํธ์ง]
์์์ ์ค๋ช
ํ DCGAN์ผ๋ก๋ latent feature๊ฐ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ์ง๊ฒ ํ์ต์ํฌ ์ ์๋ค. ๊ทธ๋์ input์ ์กฐ์ ํด์ output์ ์์ ์ด ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ง๋๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ์์ด๋์ด๋ก ์ ์๋ ๊ฒ์ด cGAN์ธ๋ฐ, conditional GAN์ ์ค์๋ง์ด๋ค.
๊ธฐ๋ณธ์ ์ธ GAN๊ณผ ์์ด๋์ด๋ฅผ ๋์ผํ๊ฒ ๊ฐ์ ธ๊ฐ๋ค. ํ์ง๋ง ์ฐจ์ด๊ฐ ์๋ค๋ฉด DISCRIMINATOR์ GENERATOR์ ๋จ์ํ LATENT VECTOR์ ๋ฃ๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ, ๊ฒฝํฅ์ฑ์ ๋ํ๋ด๋ INPUT Y๋ฅผ ์ถ๊ฐ๋ก ๋ฃ์ด์ค๋ค. ์ด๊ธฐ ์ฐ๊ตฌ์์๋ ์ด y์ one hot encoding์ ๋ฐฉ์์ผ๋ก class๋ฅผ ์ง์ด๋ฃ์ด ์คฌ๋ค๊ณ ํ๋ค.(ex. ๋ง์ฝ 1๋ถํฐ 10๊น์ง์ ์ซ์ ํ์ต์ ์ํจ๋ค๊ณ ํ๋ฉด y์ [1,0,0,0,0,0..]์ ๋ฃ์ผ๋ฉด y๊ฐ 1์ผ๋๋ output์ด 1์ด ๋์ค๋ ๊ฒฝํฅ์ฑ์ ๋๊ฒ ํ์ต์ํด.)
์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด์ ์ฐ๋ฆฌ๋ DCGAN์์๋ ํ ์ ์์๋ OUTPUT์ ๊ฒฝํฅ์ฑ์ ์ ์ ์๊ณ , ์ด๋ฅผ ๋ค๋ฅด๊ฒ ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก INFOGAN๋ฑ์ ๋ ผ๋ฌธ์ด ๋์ค๊ฒ ๋๋ค.
๊ธฐ๋ณธ์ ์ธ GAN๊ณผ ์์ด๋์ด๋ฅผ ๋์ผํ๊ฒ ๊ฐ์ ธ๊ฐ๋ค. ํ์ง๋ง ์ฐจ์ด๊ฐ ์๋ค๋ฉด DISCRIMINATOR์ GENERATOR์ ๋จ์ํ LATENT VECTOR์ ๋ฃ๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ, ๊ฒฝํฅ์ฑ์ ๋ํ๋ด๋ INPUT Y๋ฅผ ์ถ๊ฐ๋ก ๋ฃ์ด์ค๋ค. ์ด๊ธฐ ์ฐ๊ตฌ์์๋ ์ด y์ one hot encoding์ ๋ฐฉ์์ผ๋ก class๋ฅผ ์ง์ด๋ฃ์ด ์คฌ๋ค๊ณ ํ๋ค.(ex. ๋ง์ฝ 1๋ถํฐ 10๊น์ง์ ์ซ์ ํ์ต์ ์ํจ๋ค๊ณ ํ๋ฉด y์ [1,0,0,0,0,0..]์ ๋ฃ์ผ๋ฉด y๊ฐ 1์ผ๋๋ output์ด 1์ด ๋์ค๋ ๊ฒฝํฅ์ฑ์ ๋๊ฒ ํ์ต์ํด.)
์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด์ ์ฐ๋ฆฌ๋ DCGAN์์๋ ํ ์ ์์๋ OUTPUT์ ๊ฒฝํฅ์ฑ์ ์ ์ ์๊ณ , ์ด๋ฅผ ๋ค๋ฅด๊ฒ ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก INFOGAN๋ฑ์ ๋ ผ๋ฌธ์ด ๋์ค๊ฒ ๋๋ค.
4. ํ์ต๋ฒ[ํธ์ง]
4.1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ[ํธ์ง]
4.2. ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ[ํธ์ง]
4.3. Adam[ํธ์ง]
4.4. Nadam[ํธ์ง]
5. ๊ณตํ์ ์ธ ๊ธฐ์ [ํธ์ง]
- ๋ฏธ๋๋ฐฐ์น
- Sparknet (2015๋ง)
- ReLU (Rectified Linear Unit): Sigmoid ํจ์์ ๋นํด Vanishing gradient problem์ ํด๊ฒฐํ๋ค.
- ๋น ๋ฐ์ดํฐ ํ๋ก์ธ์ฑ: ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ๋ค๋์ ํ์ต ๋ฐ์ดํฐ ํ๋ณด๋ฅผ ํตํด ํด๊ฒฐํ๋ค.
- Dropout: ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ผ๋ถ ๋ ์ด์ด์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ ๊ธฐ์ . (1-p) ํ๋ฅ ๋ก ๋ ธ๋๋ฅผ ํ์ต์์ ๋ฌด์ํ์ฌ, ๋ ธ๋์ ์ฐ๊ฒฐ๋ edge๊ฐ ์๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ๊ณ ๋งค ์ฃผ๊ธฐ๋ง๋ค ๋๋คํ๊ฒ ๊ฐฑ์ ํ๋ค.
- ๊ด๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ: Caffe, Torch, Theano, RNNLIB, CUDA-ConvNet, Pylearn, DL4J, ํ ์ํ๋ก์ฐ ๋ฑ.
- ๊ด๋ จ ๊ณ์ฐ ํ๊ฒฝ: CUDA, Apache Spark
6. ๋ฌธ์ ์ [ํธ์ง]
- ํ์ต์ด ์ผ์ ํ๊ฒ ์งํ๋์ง ์๋๋ค.
- ์ผ๋ฐ ํ๋ก๊ทธ๋จ์ ๋นํด ๋์ ์ฌ์์ ์๊ตฌํ๋ค. CPU๋ ์ธ๊ตฌ๋ ค GPU๋ก๋ง ๊ตฌ๋ํ๋ค๋ฉด ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฐ๋ค. ์ ๊ฒฝ๋ง ์ข ๋ฅ์ ๋ฐ๋ผ์๋ RAM๋ ์์ญ GB ์ด์ ์ก์๋จน๋๋ค.[8] ์ด ๋๋ฌธ์ CPU, RAM, GPU ์ฑ๋ฅ์ ์ํฅ์ ๋ง์ด ๋ฐ์ผ๋ฉฐ, ๊ธฐ์ ์์ ๋ฅ๋ฌ๋ ๊ฐ๋ฐ์ฉ์ผ๋ก ์ฐ๋ ์ํฌ์คํ ์ด์ ์ ์ฒ๋ง์ ์ ๋๋ค. ์ทจ๋ฏธ๋ก ํ๊ฑฐ๋ ๋ ํํ๋ ๊ฒฝ์ฐ ๋ ธํธ๋ถ์ผ๋ก๋ ํ๋ ์๊ธฐ ๋๋ฌธ์, ๋ณดํต์ ์ผ๋จ ๋ฌด๋ฃ์ธ ๊ตฌ๊ธ Colab์ ์ด๋ค. ๊ทผ๋ฐ ์ด๊ฑด ์ง์ ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ ์ ๋ก๋ ํ๊ธฐ ๋ฒ๊ฑฐ๋กญ๊ณ , ํญํ๋ฉด Runtime์ด ๊บผ์ ธ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ (...) ๊ฒฐ๊ตญ Colab Pro๋ AWS, Azure ๊ฐ์๊ฑฐ๋ก ๊ฐ๊ฒ ๋๋ค.
- ์ ํํ ๋ฅ๋ฌ๋์ ๋ฉ์ปค๋์ฆ์ ๋ธ๋๋ฐ์ค ํํ. ์ธ๊ฐ์ ์ ๊ฒฝ๋ง์ ๋ณธ๋ ์ ๋ต์ด ๋์ค๊ฒ๋ ๋ง๋ค๋ค๋ณด๋ ์ํ์ ์ธ ์ฆ๋ช ์ด ์๋ฃ๋์ง ์์๋ค. ์๋ ์ค๊ฐ ์ญ์น๋ฅผ ๋๊ธฐ๊ณ ํ์ตํ๋ฉด์ ์ผ๋ จ์ ์์ฉ์ ํด, ์ธ๊ฐ์ ๊ฐ๊ฐ์ ๋ฐ์์ ์ด๋์ด ๋ด๋ ๊ฒ์ ํ๋ด๋ด๊ณ , ์ด ์๋ ์ค๋ค์ด ๋ญ์น๊ณ ๋ญ์ณ์ ๊ฑฐ๋ํ ๋๋ฅผ ์ด๋ฃจ์ด ํ๋จ์ด๋ ๊ณ์ฐ์ ํ๊ฒ ๋๋ ๊ฒ์ ํ๋ด๋ด๋ ๊ฒ์ ๊ฐ๊น๋ค. ๋ฌผ๋ก ์ค์ ๋ ๋งค์ปค๋์ฆ๊ณผ ๋ฅ๋ฌ๋์ ๋งค์ปค๋์ฆ์๋ ์ด๋์ ๋ ์ฐจ์ด๊ฐ ์์ง๋ง, ์์ด๋์ด๋ฅผ ์ ๊ฒฝ๋ง์์ ์ป์ ์ธ๊ณต์ ๊ฒฝ๋ง์ด๋ค๋ณด๋ ๋น์ทํ ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ ๊ฒ์ด๋ค.
์ฝ๊ฒ ๋งํด์, ์ธ๊ฐ์ ์์ง ๋์ ๋ํด์๋ ๋ชจ๋ฅด๋ ๋ถ๋ถ์ด ๋ง์๋ฐ ์ด ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ ์์ง๋ ๋ชปํ๋ ๋๋ฅผ ์ผ๋จ ๋ณธ๋ฐ์ ํด๋ณด์๋ ๊ฒ์ด๋ค. ์์ด๋์ด๋ ์๋ ์ค๋ ๋ด๋ฐ ๋ฑ ์ธ๊ฐ์ ์ ๊ฒฝ์ ๊ตฌ์ฑํ๋ ์์๋ค๊ณผ ๊ทธ ์์๋ค์ ์์ฉ๋ค์ ํตํด ์ป์ ๊ฒ์ด ๋ง์ง๋ง ์ ์ ๊ทธ ๋ชจํฐ๋ธ์ธ ๋์ ๋ํด์๋ ์ ๋ชจ๋ฅด๋ ๋ถ๋ถ์ด ๋ง๋ค๋ณด๋ ๋ช ํํ๊ฒ ์ฆ๋ช ๋๊ฑฐ๋ ๋ฉ์ปค๋์ฆ์ด ์ดํด๋์ง ๋ชปํ ๋ถ๋ถ์ ๊ทธ์ ์ถ์ธก์ผ๋ก ๊ตฌํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
- ์์ง๊น์ง ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๋๋ฐ ์ฌ๋์ ์์ด ๋ง์ด๋ค์ด๊ฐ๋ ๋ฑ ์๋นํ ๋ ธ๊ฐ๋ค๊ฐ ํ์ํ๋ค.
7. ๊ธฐ์ ๋ํฅ[ํธ์ง]
- ํ๊ตญ์ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ์ ์ ํ์ฌ๋ก์จ๋ ์ฒ์ฐธํ ์ํ๋ค. 2011~2015๋ NIPS์ 1,845ํธ์ ๋ ผ๋ฌธ์ด ๋ฐํ๋์๋๋ฐ ๋ฏธ๊ตญ 1,037๊ฑด, ์๊ตญ 110๊ฑด, ํ๋์ค 103๊ฑด, ์บ๋๋ค 97๊ฑด, ๋ ์ผ 85๊ฑด, ์ค๊ตญ 73๊ฑด, ์ค์์ค 61๊ฑด, ์ด์ค๋ผ์ 44๊ฑด, ์ผ๋ณธ 43๊ฑด, ํธ์ฃผ 29๊ฑด, ์ธ๋ 24๊ฑด, ์ฑ๊ฐํฌ๋ฅด 16๊ฑด, ์ค์คํธ๋ฆฌ์/์ดํ๋ฆฌ์/ํ๊ตญ 14๊ฑด ๋ฑ์ด์๋ค. ๊ธฐ๊ด๋ณ๋ก ๋ณด๋ฉด ์คํ ํฌ๋ ๋ํ๊ต 84๊ฑด, ์นด๋ค๊ธฐ ๋ฉ๋ฐ ๋ํ๊ต 66๊ฑด, MIT 63๊ฑด, UC ๋ฒํด๋ฆฌ 61๊ฑด, ํ ์ฌ์ค ์ค์คํด 59๊ฑด, ์ ๋๋ฒ์ํฐ ์ปฌ๋ฆฌ์ง ๋ฐ๋ 41๊ฑด ๋ฑ์ด๋ฉฐ, ํ๊ตญ ๊ธฐ๊ด ์ค 10๊ฑด ์ด์ ๋ฐํํ ๊ณณ์ ์๋ค.
8. ๊ธฐํ[ํธ์ง]
- ์ธ๊ณต์ ๊ฒฝ๋ง๊ณผ ์ ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ์ฌ ๋ง๋๋ ๋ชจ๋ธ๋ ์๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ค์ํ๊ฒ ๊ตฌ์ฑํ ๋ค ํ์ต์์ผ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ฐพ๋๋ค.
9. ๊ด๋ จ ๋ฌธ์[ํธ์ง]
[1] ํ์ต์์ ์ฌ์ฉํ๋ ๊ธฐ์ธ๊ธฐ ํ๊ฐ๋ฒ๊ณผ ๊ด๋ จ๋ ๋ฌธ์ ๋ ๋ฌธ์ ์ง๋ง ํ๋์จ์ด ์ฑ๋ฅ๊ณผ ๋ณ๋ ฌ ์ฐ์ฐ์ ์ง๋๊ฐ ๋ ๋๊ฐ ์ํ์์ ์ฒ์ ๋ฑ์ฅํ ๊ฒ์ด ํฌ๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ ๋๋ก ์ฌ์ฉํ ์ ์๋ ํ๊ฒฝ์ด ๊ฐ์ถฐ์ง์ ๋น๋ก์ ๋น์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
[2] Vanishing Gradient Problem. MLP์์ ์ธต์ด ๊น์ด์ง์๋ก ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์๋ฏธ์๋ ์ค๋ฅ๋ฅผ ์ ์ ๋ฌํ์ง ๋ชปํ๋ ๋ฌธ์ .
[3] ์๊ฐ์ ๋ฐ๋ผ ์ฐ์์ฑ์ ์ง๋๋ ๋ฌธ์ . ํ
์คํธ ์ญ์ ์ฐ์๋ ๋ฌธ์ฅ๊ณผ ๋จ์ด๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ RNN์ผ๋ก ์ ํ๋ฆฐ๋ค.
[4] networks์ weight๊ฐ ์
๋ฐ์ดํธ ๋๋ ๊ณผ์ ์์ gradient(weight์ ๋ํ ์ผ์ข
์ ์
๋ฐ์ดํธ ๋น์จ)๊ฐ 1๋ณด๋ค ์์ ๊ฐ์ด ๊ณ์ ๊ณฑํด์ง๋ฉด์ gradient๊ฐ ์ฌ๋ผ์ง๋ ํ์. ๋ฐ๋ผ์, ๋จผ ๊ณผ๊ฑฐ์ ์ํ๋ ํ์ฌ์ ํ์ต์ ์๋ฌด๋ฐ ์ํฅ์ ๋ฏธ์น์ง ๋ชปํ๊ฒ ๋จ
[5] ์ด ๋ฌธ๋จ์ ์ถ์ฒ: ์คํ ์ธ์ฝ๋๋ฅผ ์ด์ฉํ ๋์ ๋ฐ์ดํฐ ๋ถ์(2013), ์์์ง๋ํํ์ง (2017.5)
[6] Jensen-Shannon divergence ์ธก๋๋ฅผ ์ต์ํํ๋ค๊ณ ๋งํ๋ค.
[7] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. doi : arXiv:1511.06434
[8] ์ง์ง ์ ๋๋ก ๋ ํ๊ฒฝ์์ ์์ ํ๊ณ ์คํ์ ๋๋ฆฌ๋ฉด GB ๋จ์๋ก ์ธ ์๋ฆฟ์๋ฅผ ์ฐ์ด๋ฒ๋ฆฐ๋ค.