์๋
ํ์ธ์, ์
๋๋ค. ์ค๋์ ์กฐ๊ธ ํธํ๊ฒ ์ ์ด๋ด
๋๋ค.
๊ธฐ๊ณํ์ต(Machine Learning)์ ๋ค๋ฃจ๋ค๋ณด๋ฉด, ํ๋ฒ์ฏค ํธํฅ๊ณผ ๋ถ์ฐ์ ํธ๋ ์ด๋ ์คํ(Biasโvariance tradeoff)๋ฅผ ๋ง์ฃผํ ๋๊ฐ ์์ต๋๋ค. ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํฌ ๋, ์ฐ๋ฆฌ๊ฐ ํ์ต์ํจ ์๊ณ ๋ฆฌ์ฆ์ ์์ธก์ด ์ผ๋ง๋ ์ ๋ต์์ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ฐ์ํ๋ ํธํฅ(bias)๊ณผ, ์์ธก ์์ฒด๊ฐ ์ผ๋ง๋ ๋ณ๋ํญ์ด ํฐ ๊ฒ์ธ์ง๋ฅผ ๋ฐ์ํ๋ ๋ถ์ฐ(variance)๋ ์๋ก ํธ๋ ์ด๋ ์คํ(trade off) ๊ด๊ณ์ ์๊ณ , ์ด ๋ ๊ฐ์ ํฉ์ด ๊ฒฐ๊ตญ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ค์ฐจ๋ฅผ ๊ฒฐ์ ํ๋ ๋งํผ, ์ด ๋๊ฐ์ง ๊ฐ์ ์ ์ ํ๊ฒ ๊ท ํ์ผ๋ก ๋ง์ถ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ๋๋ค.
์ดํด๋ฅผ ๋๊ธฐ ์ํด ์๋ ๊ทธ๋ฆผ์ ์ดํด๋ณด๋๋ก ํฉ์๋ค.
๊ทธ๋ฆผ 1. ํธํฅ๊ณผ ๋ถ์ฐ์ ๊ฐ๋
(์ ํ๋(accuracy)์ ์ ๋ฐ๋(precision)์ ๊ฐ๋
)
์ผ์ชฝ ์ ๊ทธ๋ฆผ์ฒ๋ผ, ์ ํํ ๋ชฉํ์ ์ ํํ ๋ค์ด๋ง๋๋ค๋ฉด ๋ํ ๋์ ์์ ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค๋ฅธ์ชฝ ์๋ ๊ทธ๋ฆผ์ฒ๋ผ, ๋ง์ถ๋ ค๋ ๋ชฉํ์๋ ์ด๊ธ๋๊ณ ๊ทธ๋ง์ ๋ ํผ์ ธ์๋ค๋ฉด ์ด ์๊ณ ๋ฆฌ์ฆ์ ์คํจํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ณดํต์ ๋์ฒด๋ก ๊ฒฐ๊ณผ๊ฐ ์ ๋ชจ์ด๊ธฐ๋ ํ๋๋ฐ ๋ชฉํ์์ ๋น๊ฒจ์๊ฑฐ๋ (ํธํญ์ด ํฐ ์ํฉ: ์ผ์ชฝ ์๋ ๊ทธ๋ฆผ), ์๋๋ฉด ํ๊ท ์ ์ผ๋ก ๊ฒฐ๊ณผ๊ฐ ๋ชฉํ ๊ทผ์ฒ์ ์๊ธฐ๋ ํ๋ฐ, ์์ธก์ ํ ๋๋ง๋ค ํผ์ ธ์๋ ์ํฉ (๋ถ์ฐ์ด ํฐ ์ํฉ: ์ค๋ฅธ์ชฝ ์ ๊ทธ๋ฆผ)์ด ๋ฉ๋๋ค.
์ค์ํ ๊ฒ์ ์ด๋ฌํ ํธํฅ๊ณผ ๋ถ์ฐ์ด ํธ๋ ์ด๋ ์คํ ๊ด๊ณ์ ์๊ธฐ ๋๋ฌธ์, ์ด๋ ํ ์๊ณ ๋ฆฌ์ฆ์ด ํ์ตํ๋ ๊ณผ์ ์ ์์ด์ ํธํฅ์ ์ค์ด๋ ค๋ฉด ๋ถ์ฐ์ด ์ปค์ง๊ณ , ๋ถ์ฐ์ ์ค์ด๋ ค๋ฉด ํธํฅ์ด ์ปค์ ธ, ๊ฒฐ๊ตญ ๋ ๊ฐ์ง์ ๊ท ํ์ ์ ์ฐพ์์ผํ๋ค๋ ๊ฒ์ ๋๋ค.
์๋ฅผ ๋ค์ด 2์ฐจ์ ํ๋ฉด์์, ๋ ๊ฐ์ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๋ ๋ฌธ์ ๋ฅผ ์๊ฐํด๋ณด๋ฉด, ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด ์ด๋ ํ ๊ฒฝ๊ณ๋ฅผ ์ค์ ํด์ผํ ์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์์ต๋๋ค.
๊ทธ๋ฆผ 2. ๋ ๊ฐ์ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํ, ๋ ๊ฐ์ง์ ๊ฒฝ๊ณ ์ค์
์ ๊ทธ๋ฆผ์์, ํ์ต๋ฐ์ดํฐ๋ ๋นจ๊ฐ ์ ๊ณผ ํ๋ ์ ์ผ๋ก ์ฃผ์ด์ง๊ณ , ๋นจ๊ฐ ์ ๊ณผ ํ๋ ์ ์ ์์ญ์ ๊ตฌ๋ถํ๊ธฐ ์ํด์๋ ๊ฒ์ ์์ ํํ ์๊ฐํ ๊ฒ์ ๋๋ค. ๋ญ๊ฐ ๋งค๋๋ฌ์ด ๊ฒฝ๊ณ๊ฐ ์กด์ฌํ๋ค๊ณ ์์ํ๋ ๊ฒ์ด ์์ฐ์ค๋ฝ์ต๋๋ค. ์ด๋ก ์์ ๊ฒฝ๊ณ๋ก ์ค์ ํด๋ ์ข๊ธฐ๋ ํ๊ฒ ์ง๋ง, ์ฌ๊ธฐ์์ ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ ์์์ ์ค์ฐจ๊ฐ ๊ฑฐ์ 0์ ๊ฐ๊น๊ฒ ๋จ์ด์ง๋๋ผ๋, ๋ ๋ค๋ฅธ ํ์ต ๋ฐ์ดํฐ ์ (training set)์ด ์กด์ฌํด์, ์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ๊ฒฝ์ฐ, ํ์ต๋ ๋ชจ๋ธ ์ฌ์ด์ ํธ์ฐจ๊ฐ ์กด์ฌํ ๊ฒ์ ๋๋ค. ์ฆ, ๋งค๋ฒ ํ์ต ๋ฐ์ดํฐ ์ ์ด ๋ฐ๋ ๋๋ง๋ค, ๊ฒฝ๊ณ์ ๋ชจ์์ ๋งค์ฐ ๊ตฌ๋ถ๊ตฌ๋ถํ ๊ฒ์ด๊ณ , ๋ค์ ๋งํ์๋ฉด ๊ฒฝ๊ณ์ ๋ชจ์์ ๋ณํํญ์ ์๋นํ ๋ค์ํ ๊ฒ์ผ๋ก ์์ํ ์ ์์ต๋๋ค. ์ฆ, ๋ชจ๋ธ์ ๋ถ์ฐ์ด ์ฆ๊ฐํ๋ ๊ฒ์ ๋๋ค.
๊ฒฐ๊ตญ ์ ์ฒด ์๋ฌ๋ ์์ ๊ฐ์ด ๋ํ๋๋๋ฐ, ์ฒซ๋ฒ์งธ ํญ์ ์ฐ๋ฆฌ๊ฐ ์ ๋๋ก ์ค์ผ ์ ์๋ ์๋ฌ, ๋๋ฒ์งธ๋ ์์ธก ๋ชจ๋ธ๋ค ์์ฒด์ ๋ถ์ฐ, ์ธ๋ฒ์งธ๋ ์ ๋ต (์ฐธ) ๋ชจ๋ธ๊ณผ ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๋ ์์ธก ๋ชจ๋ธ์ ๊ธฐ๋๊ฐ๊ณผ์ ์ฐจ์ด์ธ ํธํฅ์ ๋ฐ์ํฉ๋๋ค. ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ ๊ฒฐ๊ตญ ์ ์ฒด ์๋ฌ๋ฅผ ๊ฐ์ฅ ๋ฎ์ถ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๊ธฐ ๋๋ฌธ์, ์ ์ฒด ์๋ฌ๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ, ๊ทธ ์ฌ์ด์ ํธํญ๊ณผ ๋ถ์ฐ์ ํธ๋ ์ด๋ ์คํ๊ฐ ์ผ์ด๋๊ฒ ๋๋ ๊ฒ์
๋๋ค.
(์ฌ๊ธฐ์ ์ฃผ์ํด์ผํ ์ฌํญ ์ค ํ๋๋, ํ์ต ๋ฐ์ดํฐ์
์์ฒด๋ ํ๋๊ฐ ์๋๋ผ, ์ฌ๋ฌ ํ์ต ๋ฐ์ดํฐ์
์ด ์กด์ฌํ ์ ์๊ณ , ์ด์ ๋ํ ๋ชจ๋ธ ์์ฒด์ ๊ธฐ๋ ๋ชจ๋ธ์ด ์กด์ฌํ ์ ์๋ค๋ ๊ฒ์
๋๋ค.)
๊ทธ๋ฆผ3. ์ ์ฒด ์๋ฌ์ ๋ถ์ฐ ๋ฐ ํธํฅ์ ๊ด๊ณ
์ฌ๊ธฐ์์ ์ฐ๋ฆฌ๋, ์ ์ ํ ๋ชจ๋ธ์ด๋ผ๋ ๊ฒ์ด ๊ฒฐ๊ตญ, ๋ถ์ฐ๊ณผ ํธํฅ์ ๊ท ํ์ ๊ณ ๋ คํ์ฌ ํ์ชฝ์ผ๋ก ์น์ฐ์น์ง ์๋ ์ต์ ์ ๋ณต์ก๋๋ฅผ ์ฐพ๋ ๊ฒ์์ ์๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง ๋ค์ง์ด์ ์๊ฐํด๋ณด๋ฉด, ํธํฅ์ด ๋งค์ฐ ์๊ฑฐ๋ ๋ถ์ฐ์ด ๋งค์ฐ ์์ ์ํฉ์ด ์ฌ์ค์ ์ต์ ์ ์ํฉ์ด ์๋๋ผ๋ ๊ฒ๋ ์๊ฒ ๋ฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ด๋ ํ ์ฌ์์์๋ , ์ด๋ฌํ ํธํฅ๊ณผ ๋ถ์ฐ์ ๊ด๊ณ๋ฅผ ์ผ๋ํ ํ์๊ฐ ์๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ด๋ ํ ์ฌ์์ ๋๋ฌด ๋จ์ํ๊ฒ ๋ณด๊ฒ ๋๋ค๋ฉด, ์๊ฒฌ์ ํต์ผํ๊ธฐ๋ ์ข์ง๋ง ์ฌ์ค ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ง์ค๊ณผ ๋ค์ ๋จ์ด์ง ํด๋ต์ ์ป๊ฒ ๋ ์๋ ์์ต๋๋ค. ํํธ ์ด๋ ํ ์ฌ์์ ๋๋ฌด ๋ณต์กํ๊ฒ ๋ณด๊ฒ ๋๋ค๋ฉด, ์๊ฒฌ์ ๋ค์์ฑ์ ๋ฐ์ํ๊ณ ๊ทธ ์ค์ฌ์ ์ฐพ๋๋ค๋ ์ ์์๋ ์ข์ง๋ง ๊ฒฐ๊ตญ ์๊ฒฌ์ด ํ๋๋ก ๋ชจ์์ง์ง ์์ ์ ์์ต๋๋ค. (ํน์ ์๊ฒฌ์ ์๋ ดํ๋ ๋ฐ์ ๋งค์ฐ ๋ง์ ๋น์ฉ์ ์ง๋ถํด์ผํ ๊ฒ์ ๋๋ค.) ๋ฐ๋ผ์, ์๊ฒฌ์ ๋ฌด์กฐ๊ฑด์ ์ธ ํต์ผ์ ์ถ๊ตฌํ๋ค๊ฑฐ๋ ์๊ฒฌ์ ๋งค์ฐ ๋ง์ ๋ค์์ฑ์ ์ถ๊ตฌํ๋ ๊ฒ์, ๊ฒฐ๊ตญ ์ ์ ํ ๊ท ํ์ ๊นจ๋จ๋ฆฌ๋ ์ผ์ด ๋ ์ง๋ ๋ชจ๋ฆ ๋๋ค.
์ด๋ฌํ ์ฌ์์ ์ด๋ ํ ๋ฌธ์ ์ ๋ํ ๊ฐ์์ ์๊ฒฌ ์๋ ด์ ๊ดํ ์ด์ผ๊ธฐ๊ฐ ๋ ์๋, ์ฐ๋ฆฌ๊ฐ ์ฐ๋ฆฌ ์ถ์ ์ด์๋๊ฐ๋ ๋ฐฉํฅ๊ณผ ๊ฒฝํ์ ์ํ ์์ฌ๊ฒฐ์ ์ ๊ฒฝ์ฐ์๋ ํด๋น์ด ๋ ์ ์์ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ๊ณ์ํด์ ํธํฅ๋ ๊ฒฐ์ ์ ํ๋ฉด์ ์ฐ๋ค๋ฉด, ์ฐ๋ฆฌ ์ถ์ด ์ฃผ๋ ๋ค์์ฑ๊ณผ ๋ค์ฑ๋ก์์ ์๊ฒ๋๊ธด ํ๋ค ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ๊ณ์ํด์ ๋ค์ํ ๊ฒฝํ์๋ง ์ง์คํ๋ค๋ฉด, ์ถ์ ์ค์ฌ์ ์ ์งํ ์ฑ ์ด๋ ํ ๊ธธ์ ๋ฐ๋ผ ์์ผ๋ก ํ๊ฑธ์์ฉ ๋์๊ฐ๊ธฐ ์ด๋ ค์ธ์ง๋ ๋ชจ๋ฆ ๋๋ค. (ํน์ ๊ทธ๋ฌ๊ธฐ์ ๋ง์ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ด์ผํ ์ง๋์.)
๊ฒฐ๊ตญ ์ฐ๋ฆฌ๊ฐ ์ด๋ฌํ ์ฌ์ค์์ ์๊ฐํด๋ด์ผํ ๊ด์ ์ ์๋์ ๊ฐ์ต๋๋ค.
์ด๋ ํ ํ์ต์ด๋ ์ฌ์์ด๋ ํน์ ์ถ์ด๋ , ํ์ฐ์ ์ผ๋ก ๋ฐ์ํ ์ ๋ฐ์ ์๋ ๊ณ ์ ์๋ฌ๊ฐ ์กด์ฌํ๋ค. ์ด๋ฌํ ์๋ฌ๊ฐ ์ด๋์ ๋ ์กด์ฌํ ์ ์์์ ์ธ์ ํ๋ ๊ฒ์ด ํ์ํ๋ค.
ํธํฅ์ ์๋ฒฝํ ์ ๊ฑฐํ๊ฑฐ๋ ๋ถ์ฐ์ ์๋ฒฝํ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌํ ๋ฐฉํฅ์ ์คํ๋ ค ์ฐ๋ฆฌ๋ฅผ ์ํ์ ๋น ๋จ๋ฆฌ๊ฒ ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ์ธ์ ๋ ํธํฅ๊ณผ ๋ถ์ฐ ์ฌ์ด์์ ๊ท ํ์ ์ฐพ์์ผํ๋ค.
์ด๊ฒ์ด ํธํฅ(bias)๊ณผ ๋ถ์ฐ(variance)์ ํธ๋ ์ด๋ ์คํ(trade off)๊ฐ ์ฐ๋ฆฌ์๊ฒ ๋์ง๋ ํ๋์ผ ๊ฒ์ ๋๋ค.
๊ทธ๋ฆผ ์ถ์ฒ
๊ทธ๋ฆผ 1, https://sebastianraschka.com/blog/2016/model-evaluation-selection-part2.html, Creative Commons 4.0 - BY
๊ทธ๋ฆผ 2, https://en.wikipedia.org/wiki/Overfitting , Creative Commons 4.0 - BY SA
๊ทธ๋ฆผ 3. ์์ฒด ์์ฑ