[Proteomics] Percolator
Percolator
percolation์ด๋ผ๋ ํด์ ์ค์ ๋ก ์ง๊ธ์ ์ปค๋ฎค๋ํฐ์์ peptide validation์ ํ ๋ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ ๋ฐฉ๋ฒ ์ค์ ํ๋์ด๋ค. Semi-supervised learning์ ์ฐ๊ณ ์๊ณ , ๊ทธ๋ฌ๋ค ๋ณด๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ iterativeํ๊ฒ ํ์ต์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ๋ ๋ฐฉ๋ฒ์ด๋ค.
ํ์ตํ ๋ ์ฌ์ฉํ๋ feature์ ์งํฉ์ DB search type, ์ฆ ์ด๋ ํ tool๋ฅผ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ์ ๋ค๋ฅด๊ฒ ์ ํด์ ธ ์๋ค. ์ฆ, DB search์ ์ฌ์ฉํ ํด์ ๊ฐ์ฅ ์ต์ ํ๋ feature set์ ์ด๋ฏธ ์ ๊ณตํ๊ณ ์๋ ๊ฒ์ด๋ค.
๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ค ํน์ ํ ๋ฐ์ดํฐ ์งํฉ์ ๋ํด์ ์ฐ๋ฆฌ๊ฐ validationํ๊ณ ์ถ์ ๊ฑด๋ฐ, ๊ทธ ๋ฐ์ดํฐ ์งํฉ์ ๋ํด์ model์ ๋งค๋ฒ ์๋ก ํ์ต์ํจ๋ค. peptide profit์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์ถ์ ์ด ์ฃผ์ด์ง dataset์ ๋ํด์ ๋งค๋ฒ ์๋ก ํ ๊ฒ๊ณผ ๋น์ทํ๊ฒ, ์ฌ๊ธฐ์๋ dataset์ด ์ฃผ์ด์ง๋ฉด ๊ฑฐ๊ธฐ์ ๋ง๋ ์ ์ ํ ๋ชจ๋ธ์ ํ์ตํ๋ ์ผ์ ๋งค๋ฒ ๋ฐ๋ณต์ ์ผ๋ก ํ๋ค๋ ๋ง์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐฉ๋ฒ์ ๊ฒฐ๊ตญ iterativeํ SVM(Support Vector Machine)์ ์ด์ฉํ๋ ๊ฒ์ด๋ค.
Semi-supervised
Semi-supervised์ ์ ์๋ ์ด๋ ๊ฒ ํญ ๋๊ฒ ์ด์ผ๊ธฐํ ์ ์๋ค. classification๋ฌธ์ ๋ฅผ ์๋ฅผ ๋ค์ด ์ดํด๋ณด๋ฉด, ๋ชจ๋ data์ ํํด label์ด ์ฃผ์ด์ง๋ฉด Supervised, ์๋ฌด๊ฒ๋ label์ด ์ฃผ์ด์ง์ง ์์ผ๋ฉด Unsupervised๋ผ๊ณ ํ๋ค. ์ด๋ Semi-supervised๋ data์ label์ด ์ผ๋ถ๋ง ์ฃผ์ด์ง๋, label์ด ์๋ data๋ ์ฃผ์ด์ง๋ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ฉฐ, ์ด๋ฐ ๊ฒฝ์ฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์ฌ๋ฌ๊ฐ์ง ์กด์ฌํ๋ค.
Percolator๊ฐ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ iterativeํ๊ฒ ํ๋ ์ผ์ข ์ self-training์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก semi-supervised์ด๋ฏ๋ก, label์ด ์ผ๋ถ๊ฐ ์์ด์ผ ํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฐ์ target-decoy search๋ฅผ ์งํํ๋ค. targeting์ searchํ๋ฉด ๋ชจ๋ spectrum์ ๊ฒฐ๊ตญ์ peptide๊ฐ ๋ค assign์ด ๋๋ค. ๊ทผ๋ฐ ๊ทธ ์ค ์ฐ๋ฆฌ๊ฐ label์ ํ์ ํ ์ ์๋ ๊ฒ์ decoy match ๋ฟ์ด๋ค. ๋ฐ๋ผ์ ๊ทธ๊ฒ๋ค์ด ๋ค false๋ผ๊ณ ์ฐ๋ฆฌ๊ฐ label์ ์ ํด๋ ๋๋ค. decoy spectrum(decoy peptide์ match๋ spectrum)์ ๋ค label์ 0์ผ๋ก ์ฃผ์ด๋ ๊ด์ฐฎ๋ค.
์ฐ๋ฆฌ๊ฐ ์ด๋ค ๊ฑธ 1์ด๋ผ๊ณ ํ๊ณ ์ด๋ค ๊ฑธ 0์ด๋ผ๊ณ ํ ๊ฑฐ๋ ๋๋ฌธ์ ์ด ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋ ๊ฒ์ด๊ณ , ์ฐ๋ฆฌ๊ฐ ๋งจ ์ฒ์์ผ๋ก ํด๋ณผ ์ ์๋ ๊ฒ์ target์ match๋ ๊ฒ ์ค์ DB search score์ ๊ต์ฅํ ๋์ ์ ๋ค ๊ทธ๋ฐ ๊ฑด ํ์คํ๋ค ๊ทธ๋ฐ ์ ๋ค์ ์ ๋๋ก ํ๋ฆด ์ ์๋ค๊ณ ์๊ฐํ๋ฉด ๊ทธ๋ฐ ์ ๋ค๋ง ์ผ๋ถ label์ 1๋ก ์ฃผ๋ ๊ฒ์ด๋ค. ์๋นํ score๊ฐ ๋์์ ์ด๋ฐ ์ ์ ์ด์์ ๋ฐ์๋ค๋ ๊ฒ์ ์ ๋๋ก ํ๋ฆฐ match์ผ ์๋ ์๋ค๋ผ๊ณ ํ๋ ์ด๋ค ๊ธฐ์ค์ด ์์ผ๋ฉด ๊ทธ ์ ๋๋ฅผ label์ ์ฃผ๊ณ , ๋๋จธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค ์ด๋๊น unlabeled๋ ์ํ๋ก ๊ทธ๋ฅ ๋๋ ๊ฒ์ด๋ค.
์์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, decoy spectrum์ ๊ทธ๋ฅ ๋ค์ด๊ฐ๊ณ , decoy spectrum์ ๋ํ match์ ๊ทธ ๋ค์์ PSM target match ์ผ๋ถ๊ฐ classifier๋ฅผ ๋ง๋๋๋ฐ ์ฌ์ฉ๋๋ค. ์ฌ์ค ์ ํ์ดํ๊ฐ ์ด์ง ์ ๋งคํ๋ฐ ์ด ๋ฐ์ดํฐ๋ค์ด ์ฌ์ค์ SVM Trainer๋ก ๋ค์ด๊ฐ๊ณ , ํ์ตํ๋ model์ ๊ทธ feature๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ฅผ ์ด์ฉํด Classifier๋ฅผ ํ๋ ๋ง๋ ๋ค. ๊ทธ๋์ ์์ ์ด๊ธฐ๋ผ๊ณ ๋ฐ๋ก ์์ฑ์ ํด๋ ๊ฒ์ด๋ค.
์ด๊ธฐ์ target๊ณผ decoy search ๊ฒฐ๊ณผ์์ decoy PSM์ ๋ค label์ 0์ผ๋ก ์ฃผ๊ณ , target PSM ์ค์ ๊ต์ฅํ score๊ฐ ๋์ ์ ๋ค๋ง label์ 1๋ก ์ค ๋ค์ label์ด ์๋ ์ ๋ค๋ง ๊ฐ์ง๊ณ SVM training์ ํ๋ ๊ฒ์ด๋ค. ๊ทธ ๊ฒฐ๊ณผ Classifier๊ฐ ํ๋ ๋์ฌ ๊ฒ์ด๊ณ , ๊ทธ Classifier๋ฅผ ๊ฐ์ง๊ณ ์ ์ฒด PSM์ ๋ค์ Classify๋ฅผ ํด๋ณด๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด unlabeled target ์ค์ ์ด๋ค ์ ๋ 1, ์ด๋ค ์ ๋ 0 ์ด๋ ๊ฒ ๊ฐ ๊ฒ์ด๋ค.
- ๊ทธ๋ฐ๋ฐ ์ด์ ๋ฌ๋ผ์ง ์ ์ ๋ญ๋ ํ๋ฉด ์ฒ์์ ์ฐ๋ฆฌ๊ฐ target-decoy search ๊ฒฐ๊ณผ๋ฅผ ๋๊ณ FDR์ ์ถ์ ํ ๋ ์ฌ์ฉํ๋ ๊ฒ์ score 1๊ฐ ์์ง๋ง, ์ฌ๊ธฐ์๋ SVM ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง๋๊ฒ score ์ธ์๋ ๊ต์ฅํ ๋ค์ํ feature๋ค์ด ์ฃผ์ด์ง๋ค. ๋ค์ ๋งํด Search tool์ ์ํ๋ฉด score๊ฐ ๊ต์ฅํ ์ข์ ๋ณด์ด์ง๋ง ๋ค๋ฅธ ์ธก๋ฉด์ผ๋ก ๋ณด๋ ์๋ ๊ทธ๋ ๊ฒ ๋ฏฟ์ ๋งํ์ง ์๋ค ์ด๋ฌ๋ฉด rejectํ ์๋ ์๋ ๊ฒ์ด๊ณ , search score๋ ์ข ๋ฎ์ ๊ฒ ๊ฐ์๋ฐ ๋ค๋ฅธ ๊ฑฐ๋ฅผ ์ดํด๋ณด๋ ์๋ ๋ฏฟ์ ๋งํ๋ค ๊ทธ๋ฌ๋ฉด ๋ค์ ๋ฐ์๋ค ์๋ ์๋ ๊ฒ์ด๋ค. search score ํ๋๋ง ๊ฐ์ง๊ณ ํ๋จํ๋ ๊ฒ ์กฐ๊ธ ๋ถ์์ ํ๋ค๊ณ ์๊ฐํด์ ์ด training SVM trainer๊ฐ input์ผ๋ก ๋ฐ์๋ค์ด๋ feature๊ฐ ํจ์ฌ ๋ค์ํ๊ฒ ์ฌ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด๊ธฐ์ SVM Trainer๊ฐ ๋ง๋ Classifier๋ฅผ ๊ฐ์ง๊ณ ์ ์ฒด PSM์ ๋ค์ ํ ๋ฒ labeling์ ์งํํ๋ค. ๊ทธ๋ ๊ฒ label์ ํ์ผ๋ฉด ๊ทธ label๋ ์ ๋ค์ ๊ฐ์ง๊ณ ๋ค์ ๋ FDR์ ํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฌ์ฉํ๋ ๊ฐ์ classifier์ ์ถ๋ ฅ์ด๋ค. ์๋์ target-decoy search ๊ฒฐ๊ณผ๋ฅผ ์ฐ๋ฉด ์ด๊ฒ ์๋ฏธ๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ง๊ธ SVM์ด ๋ง๋ค์ด๋ธ Classifier๋ฅผ ๊ฐ์ง๊ณ (Classifier์ ์ถ๋ ฅ์ 0 ๋๋ 1์ด์ด์ผ ํ๋๋ฐ, SVM์ด๋๊น -1์์ 1์ฌ์ด์ ๊ฐ์ด ๋์จ๋ค.) ์ ์ ํ ์ฌ์ฉํด์ FDR์ ํ๋ค. FDR์ ํ๊ณ ๋๋ฉด ๋ ์๋ก์ด ํ์คํ label์ด ์๊ธฐ๊ฒ ๋๋ฉฐ, FDR์ ํต๊ณผํ ์ ๋ค์ label์ด 1์ด๋ผ๊ณ ๋ณผ ์ ์๊ณ , ํต๊ณผํ์ง ์์ ์ ๋ค์ label์ด ์๋ค๊ณ ๋ณธ๋ค. ๊ณ์ ๊ฐ์ ์ํฉ์ด ๋ฐ๋ณต๋๋ ๊ฒ์ด๋ค.
- ๋งจ ์ฒ์์๋ target-decoy์์ ํ์คํ ์ ์๊ฐ ๋์ ์ ๋ค๋ง labeling์ ํด์ฃผ๊ณ , decoy๋ label์ 0์ผ๋ก ์ฃผ๊ณ learning์ ํ๋ค. ์ดํ ๋ ๋ฒ์งธ iteration๋ถํฐ๋ ์ SVM training์ ๊ฒฐ๊ณผ๋ก ์ป์ ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก FDR์ ํด์ ํต๊ณผํ ์ ๋ค์ label์ด 1์ด๊ณ , ํต๊ณผํ์ง ์์ ์ ๋ค์ unlabel๋ก ๋ณธ๋ค. decoy๋ ๋ 0์ผ๋ก ์๊ฐํ๊ณ ์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ ๊ฒ์ด๋ค.
๋ชฉํ๋ ๊ฐ์ FDR์์๋ผ๋ฉด ์ฐ๋ฆฌ๊ฐ FDR์ 1%๋ก ํ๊ฒ ๋ค, 5%๋ก ํ๊ฒ ๋ค ์ด๋ ๊ฒ ์ ํ์ผ๋ฉด, ๊ฐ์ FDR์์ True Positive์ ํด๋นํ๋ ์ ๋ค์ ์ต๋ํ ๋ง์ด ๋ฝ์๋ด๋ ๊ฒ์ด๋ค. ๋ํ ์ด๋ ๊ฒ iteration์ ๋ฐ๋ณตํ๋ฉด ๊ทธ๋ ๊ฒ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ ๊ฒ์ด๋ค.
Features
ํ์ต์ ํ ๋ ์ ์ผ ์ค์ํ ๊ฒ์ ๊ฒฐ๊ตญ feature๋ฅผ ์ด๋ป๊ฒ ์ ํ๋๋ ๊ทธ ๋ค์์ data๋ฅผ ์ด๋ป๊ฒ ํ๋ณดํ๋๋์ด๋ค.
Percolator๋ ๊ทธ๋์ search tool์ dependentํ๊ฒ optimal feature set์ ์ ์ํ๊ณ ์๋ค. ๊ทธ๋์ ์ด์ ์์ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ฏ์ด Mascot, Sequest, MS-GF+ ๋ฑ ๊ฐ search tool์ ๋ง๋ feature๋ฅผ ์ด๋ ๊ฒ ๋ฐ๋ก ๋ฐ๋ก ์ ์ํ๊ณ ์๋ค.
Features: Percolator
Percolator๊ฐ ์ฌ์ฉํ๋ feature์ set๋ค์ ์๋์ ์ฌ์ง์์ ํ์ธํ ์ ์๋ค. ์ ๊น ์ดํด๋ณด๋ฉด, ์ด feature๋ค์ ์ด๊ฒ๊ณผ ๋น์ทํ ๊ฐ๋ค์ ์ ์ ํ ๋ค๋ค์ผํ๋ค.
์๋ฅผ ๋ค์ด์ ๋ณธ์ธ์ด Sequest๋ก search๋ฅผ ํ๋ค ๊ทธ๋ฌ๋ฉด ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ Cross-correlation score(Xcorr)์ Delta CN (= Delta Xcorr(=1๋ฑ๊ณผ 2๋ฑ์ ํด๋นํ๋ peptide์ Xcorr ์ฐจ์ด)), SP score(Sequest๊ฐ ๋ด๋ถ์ ์ผ๋ก ์ด๊ธฐ์ ์ฌ์ฉํ๋, candidate peptide๋ฅผ ํํฐ๋งํ๋ score), ๊ทธ ๊ฐ์ log๋ฅผ ์ทจํ ๊ฒ๋ ์ฐ๊ณ , mass, enzyme rule, ion fraction, #PSMs ๋ฑ ๋ค์ํ feature๋ค์ ์ฌ์ฉํ๋ค.
์ด๊ฒ๋ค ์ค ์ ์ฒด๊ฐ ์ ๊ณต๋๋ ๊ฒ์ด ์๋, ์ผ๋ถ๊ฐ ์ ๊ณต๋๋๋ฐ percolator๋ผ๋ tool์ด ํ๋ ์ผ์ search engine์์ ๋์จ ์ฌ๋ฌ๊ฐ์ง score๋ค๊ณผ search tool๊ณผ๋ ๋ณ๋ก ์๊ด์ด ์๋ ๊ฐ๋ค๋ ๋์์ ๊ณ ๋ คํด์ validationํ๋ ํ์ต์ ํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค.
๋ค์ ๋งํด percolator๊ฐ ํ๋ ์ผ์ ๊ฒฐ๊ตญ ์ด๋ฐ ๋ค์ํ feature๋ค์ ์ด๋ค combined score๋ฅผ ํ์ต์ ํตํด์ ๊ตฌํ๋ ๊ฒ์ด๋ค. SVMํ์ต์ ์ํจ๋ค๋ ๊ฒ์ ์ด๋ฐ feature๋ค์ ์ด๋ค weight๋ฅผ ์ ์ ํ ์ฃผ๋ฉด label์ ๋ฐ๋ผ์ ์ ๋ถ๋ฅํ ์ ์๋๋ ์ด๊ฑธ ์ฐพ๋ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ตญ์ ์ด๋ฐ feature๋ฅผ ์ด๋ป๊ฒ combineํด์ decision boundary๋ฅผ ์ ํ ๊ฑฐ๋ ํ๋ ๋ฌธ์ ์ ํด๋นํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ combined score๋ฅผ ํ์ตํ๋ ์
์ด๋ค. ์ด๋ฐ feature๋ค์ ์ด๋ป๊ฒ ์ ์กฐํฉํ๋ฉด ์ ๋ง ๋ง๋ ๊ฒ๊ณผ ํ๋ฆฌ๋ ๊ฒ์ ๋ด๊ฐ ์ ๊ตฌ๋ณํ ์ ์์๊น ํ๋ ๊ฑฐ๋ฅผ ์ฐพ์๊ฐ๋ ๊ณผ์ ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ ๊ฒ์ด๋ค.
๋ค์์ผ๋ก ๋ณผ ๋ด์ฉ์ percolator ์์ฒดํ๊ณ ๋ ๋ณ๋ก ์๊ด์ด ์์ง๋ง feature engineering์ ํ ๋ ๊ณ ๋ คํด์ผ ํ๋ ์ฌํญ๋ค์ ๋ํด ์ ๋ฆฌํด ๋์ ๊ฒ์ด๋ค.
Features: pre-processing
feature๋ฅผ ์ฌ์ฉํ ๋ ์ด๋ค feature๋ฅผ ๊ณ ๋ฅผ ๊ฑฐ๋(์ ํํ ๊ฑฐ๋)ํ๋ ์ด์ผ๊ธฐ๋ฅผ ํ๊ธฐ ์ ์, feature๋ค์ ๋ํ ์ด๋ค pre-processing์ด ํ์ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ด ์๋ค. ์๋์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด Scaling, Clipping, Log scaling, Z-score ์ด๋ฐ Normalization ํ๋ ๋ฐฉ๋ฒ๋ค๋ ๊ฐ๋ฅํ๊ณ , ๊ฐ์ด ์์ ๋ ์ด๋ป๊ฒ ํ ๊ฒ์ด๋ ํ๋ Imputation๋ ๊ณ ๋ คํ ๊ฒ ์ค์ ํ๋์ด๋ค.
๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ๋ ์์๋ค์ ๋ค pre-processing์ ๋ฐฉ๋ฒ๋ค์ด๋ฉฐ, ์ด๋ฌํ pre-processing์ ์ฌ์ฉ๋ ์ ์๋ค์ง ๊ผญ ํด์ผํ๋ค๋ ๊ฒ์ ์๋๋ค. (Not a have to, but it can do)
feature์ ์๋ฏธ๊ฐ ๋ฌด์์ธ์ง, ์ํฉ์ด ์ด๋ ํ์ง๋ฅผ ์ ๋ณด๊ณ ๊ฑฐ๊ธฐ์ ๋ง๊ฒ ์ด๋ฐ ์ผ๋ค์ ํ๋ ๊ฒ์ด๋ค.
Scaling & Log tranform
scaling์ ์๋ฅผ ๋ค์ด ์ค๋ช ํ๋๋ก ํ๊ฒ ๋ค.
์ด๋ค feature๋ ๊ฐ์ ๋ฒ์๊ฐ 1 ~ 10,000์ด๊ณ , ๋ ๋ค๋ฅธ feature๋ ๊ฐ์ ๋ฒ์๊ฐ 0.5 ~ 0.7์ด๋ค๋ผ๊ณ ํ๋ฉด ๋๊ฐ์ feature๋ฅผ ๊ทธ๋ฅ ์๋์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง raw data๊ฐ์ ๊ทธ๋ฅ ์ฐ๋๊ฒ ํ์ต์ ํ ๋ ์ด๋ ค์์ ์ค ์ ์๋ค.
์๋ํ๋ฉด feature๊ฐ scale์ด ์ ํ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๊ทธ weight๋ฅผ ์ ๋ง์ถ๋ ์ผ์ด ๋ ์ด๋ ค์์ง๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ ์ฒด๋ฅผ normalizeํด์ 0~1 ์ฌ์ด์ ๊ฐ์ด ๋๊ฒ ์ด๋ ๊ฒ scaleํด์ฃผ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. (์์ฆ์ tool์ด ์๋์ผ๋ก ์ด๋ฐ scaling์ ํด์ฃผ๋ ๊ฒฝ์ฐ๋ ๋ง์ด ์กด์ฌ)
๊ทธ ๋ค์ ์ด๋ ๊ฒ scalingํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๊ทธ ํจ๊ณผ๋ฅผ ์ป๊ธฐ ์ด๋ ค์ธ ์๊ฐ ์์ด์, ์๋ํ๋ฉด ๊ฐ์ ๋ณํ๊ฐ ๊ต์ฅํ ํฐ feature๊ฐ ๊ฐ์ ๋ณํ๊ฐ ์์ feature๋ฅผ ๊ทธ๋ฅ linearํ๊ฒ scalingํ๋ ๊ฒ์ด ์๋ก ์ด๋ ๊ฒ ์ ๋ง์ ๋๊ฐ ๋ง์ด ์๋ค.
๊ทธ๋์ ๊ต์ฅํ ๊ฐ์ ๋ณํ๊ฐ, ๋ฒ์๊ฐ ๊ต์ฅํ ํฐ ๊ทธ๋ฐ ์ข ๋ฅ์ feature๋ค์ log๋ฅผ ์ทจํ ๋ค์์ ๊ทธ๊ฑธ๋ก scaling์ ํ๋ log transformation์ด ํ์ํ ๋๊ฐ ๋ง์ด ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๊ธฐ์ ์ํฉ์ ๋ฐ๋ผ์๋, log scaling๋ ์๊ฐํด ๋ณผ ์ ์๋ ๊ฒ์ด๋ค.
Feature clipping
๋ ํ๋ ๊ณ ๋ คํด๋ณผ ์ ์๋ case๋ outliers๊ฐ ์๋ ๊ฒฝ์ฐ์ด๋ค. ๋์ฒด๋ก ๋ชจ๋ feature ๊ฐ๋ค์ด ๋ค์๊ณผ ๊ฐ์ด ์กด์ฌํ๊ณ ์ฌ๊ธฐ์ ์์ฃผ 1, 2๊ฐ์ฉ ๊ต์ฅํ ํฐ ๊ฐ์ ๊ฐ์ง ์ ๋ค์ด ์ด๋ ๊ฒ ๋์ค๋ ๋ถํฌ๊ฐ ์์ ๋, ์ด๊ฑฐ ์ ์ฒด๋ฅผ ๋๊ณ scalingํ๋ ๊ฒ ๋ฐ๋์งํ๋๊ณ ์ง๋ฌธ์ ๋์ง ์ ์์ผ๋ฉฐ, ๊ทธ๋ ์ง ์๋ค ์ด ๋ง์ด๋ค.
outlier์ ํด๋นํ๋ ์ ๋ค์ ๊ทธ๋ฅ ๋ฒ๋ฆฌ๊ณ (noise๋ผ๊ณ ํ๋จํ๊ณ ), ๋๋จธ์ง๋ง ๊ฐ์ง๊ณ ์ฐ๋ฆฌ๊ฐ data๋ฅผ ์ฐ๊ฒ ๋ค๋ ๊ฒ์ด๋ค.
๋ฌด์์ด outlier๋ ๋ฌด์์ด noise๋ ํ๋ ๊ฒ๋ data์ ๋ฐ๋ผ ๋ค ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ ๊ฒ์ ์ด๋ ค์ด ์ผ์ด๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ data๋ฅผ ๋ค๋ฃจ๋ฉด์ ๊ทธ ์๋ฏธ๋ฅผ ์ ์ดํดํด์ผ ํ๋ ๊ฒ์ด๋ค. outlier๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ๋ ๊ต์ฅํ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์์ ์ ์๋๋ฐ, ๊ทธ๋ ๊ทธ๋ ๋ค ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ฌ๊ธฐ์๋ ์์ธํ ๋ค๋ฃจ๊ธฐ๋ ์ด๋ ต๊ณ , ๊ทธ๋ฐ ์ ๋ค์ด ์๋ค ์ ๋๋ก๋ง ์ดํดํ์.
Z-score
Normal ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ ๋, ๋ค์ํ score๋ฅผ ํ์ํ ์ ์์ผ๋ฉฐ ์ด๋ ์๋์ ํ๋ฅผ ํตํด ํ์ธ ํ ์ ์๋ค.
Normal ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ ๋, ํ๊ท (mean)์ ํด๋นํ๋ ์์น๋ฅผ Z-score 0์ผ๋ก ๋ณด๊ณ , ๋ฅผ ๊ฐ๊ฐ 1, 2, 3์ผ๋ก ํ์ํ์ฌ ๊ฐ๊ฐ์ ๋ถํฌ์์ ์ด๋์ฏค ์์นํ๊ณ ์๋๋ ํ๋ ๊ฒ์ด Z-score๊ฐ ๋ํ๋ด๋ ๊ฐ์ด๋ค. (์ผ์ข ์ normalization ํ๋ ๋ฐฉ๋ฒ)
Imputation
imputation์ ๊ฐ์ด ์๋, ๊ทธ๋ฌ๋๊น data์ ๋ฐ๋ผ์๋ ํน์ ํ feature๋ ๊ฐ์ ์ ํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ์์ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ด ๊ฒฝ์ฐ์ ์ด๋ป๊ฒ ํ ๊ฒ์ด๋ ํ๋ issue.
์ด์ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํ๋์ feature๋ผ๋ ๊ฐ์ด ์๋ data๋ ๊ทธ๋ฅ ๋ฒ๋ฆฌ๋ ๋ฐฉ๋ฒ์ด ์๋ค. ๋ชจ๋ , ๊ฐ์ด ๋ค ์๋ ์ ๋ง ํ์ต์ ์ฌ์ฉํ๊ณ ๊ทธ๋ ์ง ์๋ ์ ๋ ๊ทธ๋ฅ ๋ค ๋ฒ๋ฆด ์ ์์ผ๋ฉด ๊ทธ๋๋ง ํ๋ณตํ ์ํฉ์ด๋ค. data๊ฐ ์ถฉ๋ถํ ๋ง์์, ๋ฒ๋ฆฌ๊ณ ๋ ํ์ต์ ํ ์๊ฐ ์์ผ๋ฉด ๋คํ์ธ๋ฐ, imputation์ ๊ณ ๋ฏผํ๋ ์ด์ ๋ data๊ฐ ์ถฉ๋ถํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ด ๋ ์ด์ ์ด๋ป๊ฒ ํ ๊ฑฐ๋์ ๋ฌธ์ ์ด๊ณ , ๊ฐ์ด ์์ ๋ ์ด๋ค ๊ฐ์ผ๋ก ๋์ฒดํ ๊ฑฐ๋ ํ๋๊ฒ imputation์ issue์ด๋ค.
๊ฐ์ฅ ๊ฐ๋จํ๊ฒ๋ Mean, median mode ์ด๋ฐ ์์ผ๋ก ์ ์ฒด ๋ถํฌ์์ ํ๊ท ์ค๊ฐ๊ฐ ํน์ ์ต๋น๊ฐ(๊ฐ์ฅ ๋ง์ด ๋์ค๋ ๊ฐ), ์ด๋ฐ ๊ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ์ผ ๊ทธ๋๋ ๊ทธ๋ด ๋ฏ ํ๋๊น ์ด๋ ๊ฒ ํ๊ณ ๋์ด๊ฐ๋ ๋ฐฉ๋ฒ๋ ์๋ค.
๊ทธ ๋ค์์ ์ฐ๋ฆฌ๊ฐ ์ด๋ค ๊ฐ์ด ๋ค๋ฅธ ๊ฐํ๊ณ ์ด๋ค correlation์ด ์๋๊ฐ ํ๋ ๊ฒ์ ์ฐ๋ฆฌ๊ฐ ์ ์ ์๋ค๋ฉด, (์ ๋๋ก ๊ทธ๋ ์ง๋ ์์ง๋ง, ์๋ฅผ ๋ค์ด์ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๋ ๋ฌธ์ ์์ peptide์ ๊ธธ์ด๊ฐ ์ง๋ํ๊ณ correlation์ด ์๋ค๋ฉด, ํน์ ์ง๋์ด chargeํ๊ณ ์ผ์ ์ ๋ correlation์ด ์๋ค๋ฉด,) ๊ทธ๋ผ ์ด์ ๊ทธ ์ค ์ด๋ค ๊ฐ์ด ์๋ค๊ณ ํ ๋ ๊ทธ ๊ฐ์ ๊ทธ correlation์ ๋ณด๊ณ ์ ๋นํ ๊ฐ์ ์ฑ์๋ฃ๋ ์ด๋ฐ ์ผ์ ํ ์๋ ์๋ค. ๊ทธ๋์ missing value์ ๋ค๋ฅธ ๋ณ์ ์ฌ์ด์ correlation์ด ์๋ค๊ณ ํ๋ฉด ๊ทธ๋ ๊ฒ regression์ ํด์ missing value์ ์ ์ ํ ๊ฐ์ ๋ฃ์ ์ ์๋ค.
๊ทธ ๋ค์์ KNN(K-nearset neighbor)๋ฅผ ์ด์ฉํ imputation๋ ๊ฐ๋ฅํ๋ค. ์ฌ๊ธฐ์ ์ด์ nearest neighbor๋ฅผ ๋ฌด์์ผ๋ก ์ ์ํ ๊ฒ์ด๋๊ฐ ๋ฌผ๋ก issue๊ฐ ๋๊ฒ ์ง๋ง, ๋ํ๊ณ ์ ์ผ ๋น์ทํ data๋ฅผ ์ฐพ์์ ๊ฑ๊ฐ ๊ฐ์ง ๊ทธ ๊ฐ์ ๋๋ ๊ทธ๋ฅ ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ด ๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๋๋ ๋น์ทํ ์ ๋ค k๊ฐ๋ฅผ ๋ฝ์์ ๊ทธ ์ค ๊ฐ์ฅ ํํ ๊ด์ฐฐ๋ ๊ฐ์ ํ๋์ ์ด๋ค๋๊ฐ?! (discreteํ ๊ฒฝ์ฐ) mean์ด๋ mode๋ฅผ ์ฌ์ฉ ํ๋ค๋๊ฐ?! (continuousํ ๊ฒฝ์ฐ)
์ด๋ฐ ๊ฒ์ ์ด์ feature๊ฐ ์ฃผ์ด์ก์ ๋, ๊ทธ feature๋ค์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ ๊ฑฐ๋ ํ๋ ๋ฌธ์ ์ด๋ค. ๊ทธ ์ ์ ์ด์ feature๋ฅผ ๋ฌด์์ ์ฌ์ฉํ ๊ฑฐ๋ ํ๋ issue๊ฐ ์๋ค.
Features: feature engineering
Feature engineering์ ๋ฌธ์ ๋ ํฌ๊ฒ 2๊ฐ์ง๋ก ์๊ฐํด ๋ณผ ์ ์๋ค.
- feature extraction
- feature selection
๊ธฐ๋ณธ์ ์ผ๋ก feature engineering์ ํ๋ ๊ฑฐ๋ ๊ทธ feature๋ค์ ๋ค์ ์ฌ์กฐํฉํด์, ๋ค์ ์ transformํด์ ์๋ก์ด feature๋ก ๋ฐ๊พธ๋ ๊ณผ์ ์ ๋งํ๋ค.
Features: feature selection
์์ ์ด์ผ๊ธฐํ ๊ฒ์ฒ๋ผ combined score๋ฅผ ๋ง๋ ๋ค๋์ง, ์ด๋ฐ๊ฒ ์ด์ feature selection์ ํด๋นํ๋ค. ์ฃผ์ด์ง๋ feature set์์ ์ด๋ ๊ฒ์ ์ฐ๊ณ ์ด๋ ๊ฒ์ ์ ์ธ ๊ฒ์ธ์ง๋ฅผ ๊ณ ๋ฅด๋ ๋ฌธ์ ๋ feature selection์ ์ผ์ข ์ด๋ผ๊ณ ์๊ฐํ ์ ์์ ๊ฒ ๊ฐ๋ค.
feature selection ์์ฒด๋ก๋ ํ๋์ ์ฐ๊ตฌ ๋ถ์ผ์ด๋ฉฐ, ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๋ ๋ค ๊ตฌํ๋์ด ์๋ค. ๊ทธ๋ฐ ๊ฒ์ ์ ํ์ฉํ๋ ๊ฒ๋ ์ข์ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ๋ฒ์ ํ๋์ฉ ํ๋์ฉ ๋ฃ์ด๋ณด๊ฑฐ๋ ํ๋์ฉ ํ๋์ฉ ๋นผ๋ณด๋ stepwise feature selection์ด๋ค.
์ฌ์ค์ n๊ฐ์ feature๊ฐ ์๋ค๊ณ ํ ๋, n๊ฐ์ feature๋ฅผ ์กฐํฉํด์ ๊ทธ์ค์ ์ด๋ค ๊ฑธ ์ธ๊น๋ฅผ ์ ํ๋ ๋ฌธ์ ๋ ๋ชจ๋ subset์ ๋ค try ํด๋ด์ผ ํ๋ค. ๊ทธ๋ผ ๊ฐ๋ฅผ ๋ค ์๋ํด๋ด์ผ ํ๋๋ฐ ์ฌ๋์ด๋ค๋ณด๋ ๊ทธ๋ด ์๋ ์๋ค. ๊ทธ๋์ ๊ฐ์ ๋ฌธ์ ์ง๋ง ์ด๋ ๊ฒ ํ๋์ฉ ํ๋์ฉ ๋ฃ์ด๋ณด๊ฑฐ๋ ๋นผ๋ณด๋ ๊ฑฐ๋ n์ ๋น๋กํ ๋ฌธ์ ๋ก ๋ฐ๊ฟ์น๊ธฐ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฅ ๋จ์ํ์์ผ์ ๊ณผ๋ ๋น๊ตํ ์ ์์ด ์์ ์๋์ด์ง๋ง ์ด๋ฐ ์ ๋๋ก ๋ด๊ฐ ๋ ํ๊ฒ ๋ค ํ๋ ํ๋์ ๋จ์ํ๋ ๋ฐฉ๋ฒ์ด ์์ ์ ์๋ค. ์ด๊ฒ์ด filter ๋ฐฉ๋ฒ์ ํด๋นํ๋ค.
ํ์ตํ๊ณ ๋
๋ฆฝ์ ์ผ๋ก ํ๋ ๊ฒ ์ง๊ธ ์ด์ผ๊ธฐํ filter ๋ฐฉ๋ฒ์ด๊ณ , ๋ฏธ๋ฆฌ ๋ค feature๋ฅผ ๊ณจ๋ผ๋์ ๋ค์์ ์ ํ๋ feature๋ง ๊ฐ์ง๊ณ ํ์ต์ ํ๋ ๊ฒ์ด๋ค.
feature selection ์์ฒด๋ฅผ ํ์ต์ด๋ ์ฐ๊ฒฐ์ํค๋ ๋ฐฉ๋ฒ๋ค๋ ์๋ค. ์์ ๊ทธ๋ฆผ์์ ๋ง๋ฆ๋ชจ๊ผด๋ก MODEL์ด๋ผ๊ณ ํ๊ฒ ํ์ตํ๋ ๋ถ๋ถ์ ์๋ฏธํ๋๋ฐ ํ์ตํ๋ฉด์ feature selection์ด ๊ฐ์ด ๋๊ฒ ํ๋ ๋ฐฉ๋ฒ๋ค๋ ๋ค์ํ๊ฒ ์กด์ฌํ๋ค.
๊ทธ ๋ค์์, iterativeํ๊ฒ ํ์ตํ๋ฉด์ ๊ทธ ํ์ต set์์ ์๋ฏธ์๋ feature๋ค์ ์ ๊ณจ๋ผ๋ด๋ ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด wrapper๋ embeddingํ๋ ๋ฐฉ๋ฒ๋ค์ data์ ๋งค์ฐ dependentํด์ง๋ ๊ฒฝํฅ์ด ์๋ค. ๊ทธ ์ด์ ๋ feature ์์ฒด๋ฅผ ํ์ต๊ณผ ์ฐ๊ณํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฝ๊ฐ์ ์ํ์ฑ์ด ์๊ธฐ๋ ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ ํ๋จํด์ผ ํ๋ค. ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ง๊ณ ๋ฌด์จ ์ง์ ํด๋ over-fitting์ด ์ ๋ ์ํฉ์ด๋ค๋ผ๊ณ ์๊ฐํ๋ฉด ์ด๋ ๊ฒ ํด๋ณผ ๋ง ํ๊ณ , ๊ทธ๋ ์ง ์๊ณ ํ์ต์ data๊ฐ ๊ต์ฅํ minimalํ๋ฐ ์ด๋ฐ ํ์ตํ๊ณ feature selection์ ์ฐ๊ฒฐ์์ผ ๋์ผ๋ฉด ๊ทธ data์๋ ์ ๋์ํ์ง๋ง ๋ค๋ฅธ data์์๋ ๊ต์ฅํ ์ด์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๊ทธ๋ฐ ๊ฒ๋ค์ ๋ง๋ค ๊ฐ๋ฅ์ฑ์ด ๋ง์ด ์๋ค๋ ๊ฒ์ด๋ค.
์ฐ๋ฆฌ๊ฐ feature selection์ ํ ๋๋ ๊ทธ๋ ๊ณ ์ฌ์ค์ model์ selection ํ ๋๋ ๋ฐ๋์ ๊ณ ๋ คํด์ผ ํ ๊ฒ์ธ๋ฐ, Bias์ Variance ์ฌ์ด์ trade-off๊ฐ ์๋ค๋ ๊ฒ์ด๋ค.
bias๋ ํ์ต ๋ชจ๋ธ์ด๋ feature set ์์ฒด๊ฐ ์ด๋ค ์์ฒ์ ์ธ ํ๊ณ๊ฐ ์์ด์ ๊ฑฐ๊ธฐ์ ์ค๋ ์ด๋ ํ error๊ฐ ์์ ์ ์๋ค๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด ์ด์ผ๊ธฐํด๋ณด์. ์์ ๊ทธ๋ฆผ์์ ํ์์ผ๋ก ํ์๋ point๋ค์ด data point๋ฅผ ์๋ฏธํ๊ณ , 10๊ฐ๊ฐ ํ์๋์ด ์๋ค. ์ด ์น๊ตฌ๋ค์ ํ์ตํด์ ์ด๋ฅผ ๋ํ๋ด๋ ํจ์๋ฅผ ๊ตฌํ๊ณ ์ถ์ ๊ฒ์ด๋ฉฐ, ์ด๋ ํ์๋ ์ ์ ์ ์ค์ ํจ์ ๊ด๊ณ๊ฐ ๋ ์ฌ์ด, x์ y ์ฌ์ด์ 3์ฐจ์์ฏค์ผ๋ก, ์ด๋ฐ polynomial์ ํด๋นํ๋ค. ๊ทธ๋ฐ๋ฐ ์ ์ด ์ ์ ๊ณผ ์ด๊ธ๋ ์์น์ data๊ฐ ๊ด์ฐฐ๋์๋ ํ๋ฉด ์ธก์ ํ๋ ๊ธฐ๊ธฐ์ ์ค๋ฅ๊ฐ ์์ด์ ์ผ์ ์ ๋ ๋ฒ์ด๋๊ฒ ๊ด์ฐฐ๋๊ณ ์๋ ๊ฒ์ด๋ค.(์ผ๋ถ๋ ๋ง์ด ๋ฒ์ด๋๊ณ ๋ ์ผ๋ถ๋ ์ด์ง ๋ฒ์ด๋๊ณ ์ด๋ ๋ค.) ์ด๋ ๊ฒ ๊ด์ฐฐ๋ data point๊ฐ ์๊ณ ์ค์ ๋ก๋ ์ด ์ ์ ์ ํด๋นํ๋ ํจ์ ๊ด๊ณ๊ฐ ์์ง๋ง ์ฐ๋ฆฌ๋ data point๋ง ๋ณด๊ณ ์ด๋ค ํจ์๊ด๊ณ๊ฐ ์๋์ง ์ฐพ์์ผํ๋ ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋ ๊ฒ์ด๋ค.
์ด๋ฐ ๊ฒฝ์ฐ์ ๋นจ๊ฐ์์ฒ๋ผ ์ง์ ์ผ๋ก modelingํ ๊ฒ์ด๋ ํน์ ํ๋์์ฒ๋ผ 3์ฐจ์์ผ๋ก modelingํ ๊ฒ์ด๋, ์ด๋ก์์ 9์ฐจ์์ผ๋ก modelingํ ๊ฒ์ด๋์ ๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ๋ฐ์๋ค์ด๋ ์ข
๋ฅ์ error๊ฐ ๋ค๋ฅผ ์ ์๋ค. ์ผ์ชฝ์ bias๊ฐ ๊ต์ฅํ ํฐ ๊ฒฝ์ฐ๋ก, model ์์ฒด๊ฐ ํ๊ณ๊ฐ ์์ด์ ์๋ฌด๋ฆฌ data point๋ฅผ ๋ ๋ง์ด ๊ฐ์ ธ๋ค ์ฃผ์ด๋ error๊ฐ ์ค์ด๋ค๊ธฐ ์ด๋ ค์ด ์ํฉ์ธ ๊ฒ์ด๋ค. ๋ฐ๋๋ก variance๋ ์ด๋ก์๊ณผ ๊ฐ์ด data point๊ฐ 10๊ฐ๋ฐ์ ์๋๋๋ฐ 9์ฐจ์์ ๊ฐ์ง๊ณ modeling์ ํ์์ผ๋ 100% ๋ง์ถ ์ ์์ง๋ง, ์ฌ๊ธฐ์ ๋ง์ฝ data point๊ฐ ์ถ๊ฐ๋๊ธฐ ์์ํ๋ฉด ์ ํ ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ ๋๋ค. data์ ๋ฐ๋ผ์ data๊ฐ ์กฐ๊ธ๋ง ๋ฐ๊ฟ์ด๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์ค๋ model์ ๊ฒฐ๊ณผ๊ฐ ๋ง์ด ๋ฌ๋ผ์ง๋ error๊ฐ ์๋ค ํ๋ ๊ฒ์ variance๋ผ๊ณ ํ๋ค.
์ด bias์ variances๋ ์๋ก trade-off๊ฐ ์๋๋ฐ, bias๊ฐ ์ปค์ง๋ฉด variance๊ฐ ์๊ณ , variance๊ฐ ์ปค์ง๋ฉด bias๊ฐ ์์์ง๋, ์ด 2๊ฐ๋ฅผ ๊ฒฐ๊ตญ ํฉํ ๊ฒ์ด ๊ฒฐ๊ตญ ์ ์ฒด error๊ฐ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๊ฒ ์ด ๋ ๋ค ์ ์ ํ control ๋๋ ์์ค์ด ์ด๋๋๋ฅผ ์ฐพ๋ ๊ฒ ์ข์ ํ์ต์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์์ ์ฌ์ง์ ๊ฐ์ด๋ฐ ์๋ ๊ฒ์ฒ๋ผ bias๋ ์ ์ ํ controlํ๊ณ , variance๋ ์ ๋นํ controlํด์ ๊ฐ์ฅ ์ ์ ํ ์์น๊ฐ ์ด๋๋๋ฅผ ์ฐพ๋ ๋ฌธ์ ๊ฐ ๊ฒฐ๊ตญ์ ํ์ต์ ์ด๋ป๊ฒ ํ๋ฉด ์ํ๊ฒ ํ ๊ฑฐ๋์ธ๋ฐ, ์ ์ด๋ฌํ ์ด์ผ๊ธฐ๋ฅผ feature selection์ ์ด์ผ๊ธฐํ๋ค ๋ง๊ณ ํ๋๋ฉด, feature๊ฐ ์ฐ๋ฆฌ๊ฐ ํ์ํ ๊ฒ๋ณด๋ค ๋๋ฌด ์์ผ๋ฉด bias๊ฐ ํฐ ์ํฉ์ด ๋๊ณ , ๋ฐ๋๋ก ์ง๋์น๊ฒ ๋ง์ผ๋ฉด variance๊ฐ ํฐ ์ํฉ์ด ๋๋ค.
x๋ ๋์ผํ๋ฐ degree๊ฐ ํฌ๋๊น model์ด ๋ค๋ฅธ๊ฒ์ด๊ณ , ๊ทธ๋ ์ง ์๊ณ model์ ๋๊ฐ์ด linear model์ด๋ผ๊ณ ํด๋ feature๊ฐ x1๋ถํฐ x10๊น์ง ์ฃผ์ด ์ก๋๋, x1๋ถํฐ x3๊น์ง ์ฃผ์ด์ก๋๋์ ๋ฐ๋ผ์๋ bias์ variance๊ฐ ์๋ค๊ฐ๋ค ํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ด ๋ ์ฌ์ด์ trade-off๊ฐ ์๊ณ , ์ด trade-off๋ model๊ณผ feature ๋ ๋ค ์ ์ฉ๋๋ ์ด์ผ๊ธฐ์ด๋ค. ๊ทธ๋์ feature๋ฅผ ์ ์ ํ ์ ๊ณ ๋ฅด๋ ๊ฒ์ด, ์ด bias์ variance๋ฅผ ์ ์ ํ control ํ๋ ๊ฒ ๊ต์ฅํ ์ค์ํ๋ค๋ ๊ฒ์ด๋ค. ๋ค์ ๋งํ๋ฉด, ์ธ ๋ฐ ์๋ feature๋ฅผ ๊ต์ฅํ ๋ง์ด ๊ฐ๊ณ ์ค๋ฉด ํ์ต์ด ์ ๋๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง ์ด๋ฐ ์ํฉ์ ๋ง๋ค๊ณ ์์ ๊ฐ๋ฅ์ฑ์ด ๋ง์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ feature๋ฅผ ์ด๋ป๊ฒ ์ ๊ณ ๋ฅด๋ ํ๋๊ฒ, ๋ ์ ์ฒด error๋ ๊ฒฐ๊ตญ ์ด ๋์ ํฉ์ ํด๋นํ๊ธฐ ๋๋ฌธ์ ์ ์ ํ controlํด์ ์ด ์ค๊ฐ ์ง์ ์ ์ฐพ๋๊ฒ ๊ต์ฅํ ์ค์ํ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด์ ์์ ์ด์ผ๊ธฐ ํ ๊ฒ์ฒ๋ผ stepwise๋ก ํ๋์ฉ ๋ฃ๋์ง, ํ๋์ฉ ๋นผ๋ ์ง ํ๋ฉด์ feature๋ฅผ ๊ณจ๋ผ์ผ ํ๋๋ฐ ์ธ์ ๊ทธ๋ฌ๋ฉด feature๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ ๋ฉ์ถ ๊ฒ์ด๋ ํ๋ ๊ฒ์ด ๋๋ค๋ฅธ ๊ณ ๋ฏผ์ผ ๊ฒ์ด๋ค. ์ธ์ ๊น์ง ๋ฃ์ด์ผ ์ข์ ๊ฑด์ง, ์ด๋๊น์ง ๋นผ๋ฉด ์ด์ ๋ ์ด์ ๋นผ์ง ์๋ ๊ฒ ์ข๋ค๊ณ ํ๋จํ๋ ๊ฑด์ง ๊ทธ๋ฐ ์ด๋ค ๊ธฐ์ค์ด ๋๋ matric๋ค์ด ์๋ค. ์ด๋ ์๋์ ์๋ matric๋ค์ด ๋ง์ด ์ฌ์ฉ๋๋ค.
์ฌ๊ธฐ์ p๋ feature์ ๊ฐฏ์์ด๋ฉฐ, ์ ๊ทธ๋ฆผ์์๋ model parameter๋ผ๊ณ p๋ฅผ ์ด์ผ๊ธฐํ๋๋ฐ, ์ฌ๊ธฐ์๋ feature์ ๊ฐฏ์๋ฅผ ์ด์ผ๊ธฐ ํ๋ฉฐ, ๊ทธ ๋ค์์๋ ์ฃผ์ด์ง ์ ๋ ๋๊ฐ์ด ์ฃผ์ด์ ธ ์์ผ๋๊น ํ์ต data๋ ๊ณ ์ ์ด ๋ ๊ฒ์ด๋ค. ์ด๋ feature์ ๊ฐฏ์๋ฅผ ๋ฌด์์ผ๋ก ํ ๋๊ฐ ์ ์ฒด์ ์ผ๋ก ๊ฐ์ฅ ๋ฐ๋์งํ๊ฐ ํ๋ ๊ฒ๋ค์ ์ด๋ฐ ์์ผ๋ก ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์ ์ํ๊ณ ์๋ ๊ฒ์ด๊ณ , ์ฐ๋ฆฌ๊ฐ ์ฐธ๊ณ ํด ๋ณผ ๋งํ matric์ด๋ค ๋ผ๋ ์ ๋๋ง ์ด์ผ๊ธฐํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ tool์์ ์ด๋ฐ ๊ฒ๋ค๋ ๋ค ๊ตฌํ๋์ด ์์ผ๋ฉฐ, feature selectionํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ฆด ๋ ์ด๋ฐ parameter๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค.
Features: feature extraction
feature์ ๊ดํด์ ๋ง์ง๋ง์ผ๋ก ํ ์ด์ผ๊ธฐ๋ feature extraction์ด๋ค. ๊ฒฐ๊ตญ์ ์ฃผ์ด์ง data๋ฅผ ์ค๋ช
ํ๋ ์๋ก์ด dimension์ ์ฐพ๋ ์
์ด๋ค. ์ด dimension์ ์ฐพ์ ๋ PCA๋ ์ด๋ ๊ฒ variance๊ฐ ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก dimension์ ์ฐพ๋๋ค. ์๋ํ๋ฉด ๊ทธ๋์ผ ๊ทธ dimension์์ ๊ฐ์ฅ ๋ง์ data๋ฅผ ์ค๋ช
ํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ทธ๋์ PCA๊ฐ ํ๊ณ ์ถ์ ์ผ์ ์๊ธฐ ํ๋ ๊ฐ์ง๊ณ (์ฒซ๋ฒ์งธ component๋ผ๊ณ ํ๋ฉด) ๊ทธ๊ฑธ๋ก ์ด๋ป๊ฒ ๊ฐ์ฅ ๋ง์ data๋ฅผ ์ ์ค๋ช
ํ ๊ฑฐ๋, ์ํ๊ณ ์ํ๊ณ ์ ๋ค๋ฅธ์ง, ์ด๊ฒ data point๊ฐ ๋ค ๋ค๋ฅธ ๊ฒ์ ์ค๋ช
ํด์ผ ๋๊ธฐ ๋๋ฌธ์ variance๊ฐ ๊ฐ์ฅ ํฐ ๋ฐฉํฅ์ผ๋ก ์ด๊ฑธ ์ฐพ๋ ์ผ์ ํ๋ ๊ฒ์ด๋ค.
์ด๋ ๊ฒ ํ๋ ๊ฑฐ๋ ์ด์ data๋ฅผ ํํํ๋ ์ ์ฅ์ด๊ณ , ๊ทธ๋ ์ง ์๊ณ ๋ง์ฝ classification์ ํ๋ค ๊ทธ๋ฌ๋ฉด ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด data๋ฅผ ์ด ์ชฝ dimension์ผ๋ก ํํํ ๊ฒ์ด๋ ๋ค๋ฅธ ์ชฝ dimension์ผ๋ก ํํํ ๊ฑฐ๋ ๋ผ๊ณ ํ ๋ ๋น์ฐํ LD 1 dimension์ผ๋ก ํํํด์ผ classifyํ๊ณ ์ ํ๋ ๋ ๊ทธ๋ฃน์ด ๋ช ๋ฐฑํ ๋๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด LDA๋ PCA์ ์ผ์ข ์ด์ง๋ง ์๋ variance๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ์ถ์ ์ฐพ๋๋ค. ๊ทธ๋ฌ๋๊น ๊ฐ๊ฐ์ data์ ํด๋นํ๋ ์ด ๊ทธ๋ฃน์ variance๊ฐ ๊ฐ์ฅ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ์ฐพ๊ธฐ ๋๋ฌธ์ classification ๋ฌธ์ ๋ฅผ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๊ณ ์ ํ ๋๋ ์ด๋ฐ LDA ๊ฐ์ ๊ฒ์ ์ฐ๋๊ฒ ํ์ํ๋ค๊ณ ๋งํ๋ ๊ฒ์ด๋ค. ์๋ ๊ทธ๋ฆผ๋ง ๋ณด์๋ ๋ช ๋ฐฑํ ์ ๊ทธ๋ฐ ์ผ์ ํ๋์ง ์ ์ ์์ ๊ฒ์ด๋ค.
๊ธฐ์ ์ ์ผ๋ก๋ LDA๋ PCA๋ ๋ค๋ฅผ ๊ฒ ์์ง๋ง ์ด๋ค ์๋ก์ด dimension์ feature์ ์กฐํฉ์ ์ฐพ๋ ์ ์ธ๊ฑด๋ฐ ๊ทธ feature์ ์กฐํฉ์ ์ด๋ค ๋ชฉ์ ์ผ๋ก ์ฐพ๋๋, ํํํ๊ธฐ ์ํด์ ์ฐพ๋๋ ์๋๋ฉด classification์ ํ๊ธฐ ์ํด์ ์ฐพ๋ ๊ฑฐ๋์ ๋ฐ๋ผ์ ์ฐพ๋ ๊ฒ์ ๋ฐฉํฅ์ด ์ฝ๊ฐ ๋ค๋ฅผ ๋ฟ์ด๊ณ , ํ๊ณ ์๋ ์ผ์ ๊ทธ๊ฒ ๊ทธ๊ฑฐ๋ค.
์ฌ๊ธฐ๊น์ง๊ฐ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ feature๋ค์ด ์ด๋ค ๊ฒ ์์ ์ ์๊ณ ๊ทธ๋ฐ ๊ฒ๋ค์ ๊ฐ์ง๊ณ ๋ฌด์จ ์ผ์ ํด์ผ ํ ๊ฑด๊ฐ ํ๋ ์ด์ผ๊ธฐ๋ฅผ ํด ๋ณด์๋ค. ๋ค์์ผ๋ก๋ percolator์์ ์ด ํ์ต์ ์ด๋ป๊ฒ ํ๋์ง, ํ์ต ๋ชจ๋ธ์ ๋ํด์๋ ์์๋ณด์.
Model
Model: training data
์๋์ ์ฌ์ง์ ๋ณด๋ฉด positive๋ฅผ ์ด๋ค๊ณ ํ๋๋ฐ ์ค์ ๋ก percolator๊ฐ ๋ฌด์์ confidentํ๋ค๊ณ ๋ณด๋๋ฉด, target-decoy์์ 1% FDR์ ํด์ ๊ทธ threshold๋ฅผ ๋๋ ์ ๋ค์ ๋ค ๊ทธ๋ฅ confidentํ PSM์ผ๋ก ๋ณด๋ ๊ฒ์ด๋ค. ๊ทธ๋์ 1% FDR์ ํต๊ณผํ target hit๋ค์ ์ ๋ถ positives๋ก ๋ณด๊ณ negatives๋ decoy ์ค์ (์ด์ classification์ ํด๋ณด๋ฉด ๊ทธ class์ size๋ฅผ ์ด๋ ์ ๋ ๋ง์ถ๋ ๊ฒ, ๋น๊ต์ uniformํ๊ฒ ๋ถํฌํ๋๊ฒ ํ์ต์ํค๋๋ฐ ๊ต์ฅํ ์ค์, ์ค์ data space๋ ๊ทธ๋ ์ง ์๋ค๊ณ ํ๋๋ผ๋! โ ๊ทธ๋์ผ generalization์ด ์ถฉ๋ถํ ๋จ) decoy hit์ ๋ ์ด๋งํผ ์๋ค๊ณ ๊ฐ์ ํ๋ค.
๋ค์ ๋งํด, target hit ์ค์ ์ผ๋ถ๋ง positive๋ก ์ฌ์ฉํ์ฌ set์ ๋ง๋ค๊ณ , ๊ทธ๊ฒ๊ณผ ๋น์ทํ ์ ๋์ decoy hit์ randomํ๊ฒ ๊ณ ๋ฅธ๋ค. ์ด๋ฅผ ํตํด ์์ชฝ์ ๋ฐธ๋์ค๋ฅผ, ํ์ต data์ ํฌ๊ธฐ๋ฅผ ์ด๋ ์ ๋ ๋ง์ถ ๋ค์์ ํ์ต์ ํ๋ ๊ฒ์ด๋ค.
์๋ ๊ทธ๋ฆผ์์ ์ดํด๋ณผ ์ ์๋ฏ์ด, ํ์ต data๋ฅผ ์ด์ฉํด์, SVM์ ํ์ตํด์ ์ป์ ํ์ต model์ด ๋์ค๋ฉด ๊ทธ classifier๋ฅผ ์ด์ฉํด์ ๋ค์ re-score(re-rank๋ re-score๋ฅผ ํตํด rank๋ฅผ ๋ฐ๊ฟ ์ ์์ผ๋ฏ๋ก ์ฌ๊ธฐ์๋ re-score๊ฐ ๋ ์ ํฉํ ๋ฏ)๋ฅผ ํ๋ค. ์ดํ ๋ค์ ํ๋ฒ FDR์ ํ๋ฉด label์ด ๋ฐ๋ ์ ์๋ ๊ฒ์ด๋ค. ๊ทธ๋์ positive set์ ๋ค์ ์ ํ๊ณ ๊ทธ๋ ๋ negative๋ฅผ ๊ทธ ์ซ์๋งํผ randomํ๊ฒ ๋ค์ decoy์์ ๋ฝ๊ณ .. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ ๊ฒ์ด๋ค.
percolator๋ ์ธ์ ๊น์ง ์ด iteration์ ํ๋๋ํ๋ฉด, ์ค์ ๋ก๋ ์ต๋ 10๋ฒ๊น์ง๋ง iteration์ ๋ฐ๋ณตํ๊ฒ ๋๋ค. ๊ทธ๋ฌ๋๊น SVMํ์ต์ ์ธก๋ฉด์์ ๋ณผ ๋, 10๋ฒ ์ด์์ ์ ๋๋ก ์ํ๋ ๊ฒ์ด๋ค. ์คํ์ ์ผ๋ก ํด๋ณด๋, data size๊ฐ ์ถฉ๋ถํ ํฌ๋ฉด(์๋ฅผ ๋ค์ด 1๋ง๊ฐ) iteration์ 1~2๋ฒ ์ ๋ ํ๊ณ ๋๋ฉด seturation๋์ ๋ ์ด์ ๋ฐ๋์ง ์๋ ๋ค๋ ๊ฒ์ด๋ค. ์คํ์ ์ผ๋ก ํด๋ณด๋๊น 10๋ฒ ์ ๋ ํ๋ฉด target-decoy๊ฐ ์๋ฏธ ์๋ ์ํฉ์์๋ ์ถฉ๋ถํ ๊ฐ๋ฅํ๋ค๋ผ๊ณ ์๊ฐ์ ํด์ ์ด์ max 10๋ฒ ์ด๋ ๊ฒ ํ ๊ฒ์ด๋ค. ์ด ํ์ต์ 10๋ฒ ํ๋ค๋๊ฒ ์๊ฐ์ ์ผ๋ก๋ ๊ต์ฅํ ๊ณ์ฐ ์์์ ์ฐ๋ ์ธก๋ฉด์์๋ ํ์ต์ 10๋ฒ ๋ฐ๋ณตํ๋ ๊ฒ ๊ทธ๋ ๊ฒ ํ๋ณตํ ์ผ์ ์๋๋ค.
๊ทธ๋์ percolator๋ ๋น๊ต์ ๋น ๋ฅธ ํ์ต์ ์ํด์ linear SVM์ ์ฌ์ฉํ๋ค. ํ์ต์ ๋นจ๋ฆฌ ํ๊ธฐ ์ํด์ ๋ค๋ฅธ ํ์ต model์ ์ฐ๋ฉด ์ด๊ฑธ iteration ๋ฐ๋ณตํ๋๊ฒ ๊ต์ฅํ ๋ถ๋ด์ค๋ฌ์ธ ์ ์๋๊ฒ์ด๋ค.
Model: SVM(1)
์ด SVM์ด ์ด๋ค ํ์ต ๋ชจ๋ธ์ด๋ ๊ฐ๋ ์ ๋๋ง ์ค๋ช ํ๊ณ ๋์ด๊ฐ๋๋ก ํ์. ์๋์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ์ฌ๊ธฐ์ ์๋ ์ด ์ ๋ค๋ก ํํ๋ ๊ฒ๋ค์ด ์ด์ ํ์ต data์ด๊ณ , ์งํ ์ ๋ค์ด positive, ํ๋ฆฐ ์ ๋ค์ด negative๋ค ๊ทธ๋ฌ๋ฉด SVM์ ์ด๊ฑธ 2์ฐจ์ ํ๋ฉด์ผ๋ก ์ค๋ช ํ์ง๋ง, ์ด ํ์ต data๋ฅผ ๋ํ๋ด๋ feature์ vector๊ฐ ์๋ ๊ฑฐ๊ณ , ๊ทธ feature vector๋ 2์ฐจ์์ด ์๋ ์๋ ์๋ค. ๋น์ฐํ ๊ฑ๋ค๋ค์ ์ด๋ค ์ฐจ์์ผ์ง ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์์์ ์ฐจ์์ vector์ธ๋ฐ, ์ค๋ช ํ๊ธฐ ์ํด์ ๊ทธ๋ฆผ์์๋ 2์ฐจ์์ฒ๋ผ ํ์๋์ด ์๋ค. ์ด๋ ๋ ์ด๋ค vector๋ฅผ ๋ํ๋ธ๋ค.
๊ทธ๋์ ์ด์ ๋ง์ฝ์ 2์ฐจ์ ํ๋ฉด ์์ ์ด๋ ๊ฒ data๋ค์ ๋ํ๋ผ ์ ์๋ค๋ฉด ๊ทธ data๋ค์ ๊ตฌ๋ถ ์ง๋ 2๊ฐ์ cluster๊ฐ ์๋ ๊ฒ์ด๋ค. positive set๊ณผ negative set, ์ด ๋์ ์ ๊ตฌ๋ถํ๋ ์ด๋ค decision boundary๋ฅผ ์ฐพ๊ณ ์ถ์ ๊ฑด๋ฐ, SVM์ ๋ set์ฌ์ด์ ์์ญ์ ๊ตฌ๋ถ ์ง๋, data point ์ฌ์ด๋ฅผ ๊ตฌ๋ถ ์ง๋ ๊ณต๊ฐ์ ๊ตฌํ๊ณ ์ถ์ ๊ฒ์ด๋ค. ๊ทธ ๊ณต๊ฐ์ ๊ฐ์ด๋ฐ๋ฅผ ์ง๋๋ ๊ฒ์ด maximal margin์ ๊ฐ๋ decision boundary์ด๊ณ , ์ด ์์ญ์ ์ค์ฌ์ผ๋ก positive์ negative๊ฐ ๊ตฌ๋ถ์ด ๋๋ค. ์ ๊ทธ๋ฆผ์์ ํ์ ๋ถ๋ถ์ด ๊ทธ margin์ ์์ญ์ด๊ณ , ๊ฐ์ฅ ์ ๋๋๋ ๊ฒ์ด Decision boundary, ๊ทธ๋ฆฌ๊ณ SVM์ด ์ํ๋ ๊ฒ์ ์ต๋๋ก ๋จ์ด์ง ์ ์๋ line์ด ๋ง๋ค์ด์ง๋๊ฒ ์ด๋๋๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์๋ ์ด์ ์ด๋ ๊ฒ 2์ฐจ์์ผ๋ก ์ค๋ช ํ๊ธฐ ๋๋ฌธ์ ์ง์ ๋ ๊ฐ๋ก ์ค๋ช ํ์ง๋ง, ์ด๊ฒ ์ด์ ์ฐจ์์ด ๋์ด๋๋ฉด, 3์ฐจ์์ด๋ฉด ํ๋ฉด์ด, 4์ฐจ์์ด๋ฉด 3์ฐจ์ ๊ณก์ ์ด ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ์ฐจ์์ด ๋์ด๋๋ฉด ๊ทธ๋ ๊ฒ ๊ณ์ ๋ฌ๋ผ์ง๋ค๊ณ ์๊ฐํด ๋ณผ ์ ์๋ค.
Model: training a linear SVM
์ด๊ฑธ ๊ตฌํ๋ ๊ณผ์ ๋ ์กฐ๊ธ ์ดํด๋ณด๋ฉด ํฅ๋ฏธ๋กญ๊ธฐ๋ ํ๋ค. ์ด๋ ๊ฒ margin์ ๊ฐ์ฅ ๋ํ๋ ๊ทธ๋ฐ decision boundary๋ฅผ ์ฐพ๊ธฐ ์ํด์๋ positive set์ ๋ํด์ ๊ฐ positive set์ผ ๋, ์ด์ฌ์ผ ํ๋ค. ์๋ํ๋ฉด positive set์ supporting vector๋ฅผ ์ง๋๋ ์ง์ ์ด ์ธ ์ง์ ์ด์๊ธฐ ๋๋ฌธ์ ์ด๊ฒ๋ณด๋ค ์ปค์ผํ๋ ๊ฒ์ด๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก label์ด negative์ธ ์ ๋ํด์๋ ์ด์ฌ์ผ ํ๋ค.
์ด์ ์ด ์กฐ๊ฑด์ ๋ง์กฑํ๋๋ก ๊ตฌํด๋ณด๋ฉด ๊ฒฐ๊ตญ ์ด ๋ผ๊ณ ํ๋ ๊ฒ ๋ ์ง์ ์ฌ์ด์ margin์ด๋ค. ๋ผ๊ณ ํ๋๋ฐ positive์ ์ง์ ์ด๊ณ , ๋ผ๊ณ ํ๋๊ฒ negative์ ์ง์ ์ ์๋ฏธํ๋ค. ๋ ์ง์ ์ ๊ฒฐ๊ตญ ๋ฒกํฐ์ ๋ฑกํฅ์ผ๋ก ํํ ์ด๋ ์ํจ ๊ฒ์ด์ง ๋๋ฌธ์ ๋งํผ, ์ด ํฌ๊ธฐ๊ฐ ๋จ๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ์ ๊ทธ๋ฆผ์ ์๋ค๊ณผ ๊ฐ์ด ์ธ ์ ์๊ณ , ์ด๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ weight vector์ norm์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฐ์ ๋ถ๋ชจ๋ก ๊ฐ๋ ์ด๋ฐ ๊ฐ์ด ๋๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ ๊ฐ ์ ์ผ ์ปค์ง๋ ๋ฅผ ๊ตฌํ๋ ๊ฒ์ด๋ค. SVM์์๋ ๋์ ์ ์ผ ๋ง์ด ๊ฐ๋ผ๋๋ ๊ฐ ๋ญ๋๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ผ๋ ๊ฒ์ด๋ค.
์ด๊ฒ์ ๋ฐ๊ฟ์ ์ norm์ minimizeํ๋ ๋ฌธ์ ๋ก ๊ตฌํ๋ ๊ฒ์ด๋ค. ์ด๋ norm์ด ์๋ norm์ ์ ๊ณฑ์ ๊ตฌํ๋ ์ด์ ๋ ๋์ค์ ์ norm์ ๊ณ์ฐํ๋๋ฐ ๊ทธ ์์ square-root๊ฐ ์๊ธฐ ๋๋ฌธ์ด๊ณ , norm์ minimizeํ๋ norm์ ์ ๊ณฑ์ minimizeํ๋ minimizeํ๋ ์กฐ๊ฑด์ ๋๊ฐ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ ๊ฒ ํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค.
minimizeํ ๋์ ์กฐ๊ฑด์ ์๊ฐํด๋ณด๋ฉด ๊ฒฐ๊ตญ ์ฃผ์ด์ง data๋ฅผ ์ ์ค๋ช ํ๋ฉด์, ๋ค ๋ง์กฑ์ํค๋ฉด์ minimizeํด์ผ ํ ๊ฒ์ด๋ค. ๊ทธ๋์ ๊ฐ positive set์ data์ผ ๋๋ ๊ฐ 1, negative data์ผ ๋๋ ๊ฐ -1์ด๋ฉฐ, SVM์ 1, -1 ์ด๋ ๊ฒ labeling์ ํ๊ฒ ๋๋ค. ๊ฒฐ๊ตญ ์ด๋ฅผ ํตํด ์ ์์ ๋ค ์ ํฉํ ๋ชจ๋ธ์ด ๋๋ค.
์ ๋ฆฌํ์๋ฉด ์๋์ ๊ฐ๋ค.
- ์ฃผ์ด์ง training data๋ฅผ ๋ค ๋ง์กฑ์ํค๋ฉด์ ์ด๊ฒ์ minimizeํ๋ ๊ทธ๋ฐ ๋ฅผ ์ฐพ๋๊ฒ, SVM์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ decision boundary์ ํด๋นํ๋ ์ง์ ์ด ๋ญ๋๋ฅผ ์ฐพ๋ ๋ฌธ์ ์ด๊ณ , ์ง์ ์ ๊ฒฐ๊ตญ coefficient๋ค์ ์ฐพ๋ ๊ฑด๋ฐ ๊ทธ๊ฒ ์ด ๋ผ๊ณ ํ๋ weight-vector๋ก ํํ๋ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ด์ ์ด๋ ๊ฒ ์กฐ๊ฑด์ด ๋ถ์์ ๋ ์ด๋ค optimization์ ํ ๋๋ Lagrange multiplier method๋ฅผ ์ธ์๊ฐ ์๋ค. ์ด ์กฐ๊ฑด์ ํด๋นํ๋ ๋ถ๋ถ๊น์ง๋ฅผ ํฉํ๋ equation์ ๋ง๋ค๊ณ ๊ทธ ์ ์ฒด๋ฅผ ๊ทธ๋ฅ minimizeํ๋ฉด ๊ทธ๋ฌ๋ฉด ์๋ ์ฐ๋ฆฌ๊ฐ ์ด ์กฐ๊ฑด์ผ ๋ norm์ minimizeํ๋ ๊ฒ๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ด๋ค.
Lagrange multiplier method์ ์ํด ๊ฐ๊ฐ์ ๊ทธ๋ฅ ํธ๋ฏธ๋ถํด์ ๊ทธ๊ฒ 0์ด ๋๋, 3๊ฐ์ parameter ๊ฐ๊ฐ์ ๋ํด์ ํธ๋ฏธ๋ถ์ ํ ๋ค์์ ์ด ์ ์ฒด ํจ์๊ฐ 0์ด ๋๋ ๊ฐ์ด ๋ญ๋๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค. ๊ทธ๋์ ์์ ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด ์ , ์ฌ๊ธฐ์๋ ์๋ํ๋ฌ์ง๋ง ์ ๋ํด์๋ ํธ๋ฏธ๋ถ์ ํ ๋ค์์ ๊ทธ๊ฑฐ๋ฅผ ๋ง์กฑ์ํค๋ ๊ฐ์ ์ฐพ๋ ๋ฌธ์ ๋ก ๋ฐ๊ฟ์ ์๊ฐํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด SVM์ ์ ๋๋ก ์ดํดํ๋ ๊ฒ์ ๊ต์ฅํ ๋ณต์กํ๋ค. ๊ฐ๋ ์ ์ดํดํ๋ ์ ๋๋ก๋ง ๊ฐ๋ตํ๊ฒ ์ค๋ช ์ ํ๋ฉด ๊ทธ๋ฐ ๊ฒ์ผ๋ก ์ถฉ๋ถํ ๊ฒ ๊ฐ๋ค๊ณ ์๊ฐ๋๋ค.
Model: testing a linear SVM
๊ทธ๋ ๊ฒ ํด์ ์ ์ ์ด๋ฐ ๊ฒ์ด ์ด๋ค ๊ฐ์ ๊ฐ์ง ๋ margin์ด maximize๋๋ ํ๋ ๊ฑฐ๋ฅผ ์ฐ๋ฆฌ๊ฐ ์ฐพ์ผ๋ฉด ๊ทธ ๋ค์์๋ inference๋ ๊ต์ฅํ ๊ฐ๋จํ๋ค. ์ ์ํด์ 2๊ฐ์ ์ง์ ์ด ์ ํด์ง๊ณ , ๊ทธ 2๊ฐ์ ์ง์ ๊ฐ์ด๋ฐ๋ฅผ ์ง๋๊ฐ๋ ์ ๋ฅผ ์ฐ๋ฆฌ๊ฐ decision boundary๋ผ๊ณ ํ์ผ๋๊น, ๊ทธ decision boundary๋ฅผ ์ค์ฌ์ผ๋ก ๊ทธ๋ฌ๋ฅผ ๋์ผ๋ฉด positive, ์๋๋ฉด negative (training data๋ 1๊ณผ -1๋ก label์ ๋ถ์์ง๋ง inferenceํ ๋๋ ์ค์ฌ์ด 0, ์ฆ decision boundary๋ฅผ ์ค์ฌ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ํ๊ธฐ ๋๋ฌธ์ 0์ ์ค์ฌ์ผ๋ก ๊ตฌ๋ณ!)๋ก ํด์ ํ๋จํ๋ค.
Model: SVM(2)
์ค์ํ ๊ฒ์ 2๊ฐ์ง์ด๋ค. ์ฒซ ๋ฒ์งธ๋ ์ด๋ ๊ฒ margin์ maximizeํ๋ ๊ทธ๋ฐ decision boundary๋ฅผ ์ฐพ์ํ๋ ๊ฒ. ๋ ํ๋๋ ์๋ ๊ทธ๋ฆผ์์ ์ด์ผ๊ธฐ ํ๋ฏ, kernel trick์ด๋ผ๊ณ ํ๋ ๊ฒ์ด๋ค. ์ด 2๊ฐ์ง๊ฐ SVM ํ์ต์ ๊ฐ์ฅ ํฐ contribution์ด๋ค.
์๋์ ๊ทธ๋ฆผ์ ์ดํด๋ณด์. ํ์ต data๊ฐ ์ด๋ ๊ฒ margin์ ๋๊ณ ์์ ํ ๋๋ ์ ์๊ฒ ์ฃผ์ด์ง๋ฉด ๊ทธ๋๋ง ๋คํ์ธ๋ฐ ์ด๋ค decision boundary๋ฅผ ๊ฐ์ ธ์๋ ์๋ค๋ฅผ ์๋ฒฝํ๊ฒ ๋๋ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ์์ ๋! ๊ทธ๋ฌ๋๊น separableํ์ง ์์ data๊ฐ ์ฃผ์ด์ง ์ ์๋ ๊ฑฐ๋ค. ์๋ํ๋ฉด ํ์ต data์๋ noise๋ ์์ฌ ์๊ณ , ๊ทธ ์ด์ํ ๊ฒ๋ค์ด ๋ง์ด ๋์ฌ ์ ์๊ธฐ ๋๋ฌธ์ ์ ๋ ๊ฒ separation์ด ์ ๋์ง ์๋ ํ์ต data๊ฐ ์์ ๋ ์ด๋ป๊ฒ ํ ๊ฑฐ๋ ์ด๋ฐ ๊ฒฝ์ฐ์ธ ๊ฒ์ด๋ค. 2์ฐจ์ ํ๋ฉด์์ ๋ณด์๋ฉด ๋นจ๊ฐ์๊ณผ ํ๋์ ์ด ๋ ๊ทธ๋ฃน์ ๊ตฌ๋ณํด์ผ ํ๋๋ฐ ์ง๊ธ ์ด๋ฐ ์์ผ๋ก data๊ฐ ๋ฐฐ์น๊ฐ ๋์ด ์์ด์ ์ด๋์๋ค ์ง์ ์ ๊ทธ์ด๋ ๋ class๋ฅผ ์์ ํ๊ฒ ๋๋ ์ ์๋ ์ง์ ์ ์๋ ๊ฒ์ด๋ค. ์ฆ, ์ง์ ์ด๋ผ๋ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ ์ด์์, ๋ชจ๋ธ์ด linear SVM์ด๋ผ๋ ํ๋ ๊ทธ ์กฐ๊ฑด ํ์์๋ ๋นจ๊ฐ class๊ฐ ํ๋ class๋ฅผ ๋๋ ์ ์๋ ์ง์ ์ ์ด ์ธ์์ ์กด์ฌํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ โSlackโ variable์ด๋ผ๋ ๊ฒ์ ์ถ๊ฐํด์ margin์ ์กฐ๊ธ softํ๊ฒ ๊ฐ๋ ๊ฒ์ด๋ค.(soft margin) ์๋๋ ์์ ๊ทธ๋ฆผ์ฒ๋ผ positive set๊ณผ negative set์ ๋ํ boundary์์ ์ค๊ฐ์ ๋์ค๋ ์ ๋ค()์ ํฌ๊ธฐ๋ฅผ ํด์ผํ๋๋ฐ, ๊ทธ๋ ์ง ์๊ณ ์ฝ๊ฐ์ ์ฌ์ ๋ฅผ ๋์ด์ ํ์ฉํ ์ ์๊ฒ ๊ทธ๋ฐ ๊ฐ์ ์ ์ข ํ๋ค๋ ๊ฒ์ด๋ค. ์ฆ, soft margin์ ์ฃผ์ด์ ๊ทธ ์์์๋ ์๋ค๊ฐ๋ค ํ๋๋ผ๋ ํ์ฉํ ์ ์๋๋ก ๊ฐ์ ํ ๊ฒ์ด๋ค. ๊ทธ๋ณด๋ค ๋ ์ค์ํ ๊ฒ์ โKernelโ trick์ด๋ผ๊ณ ํ๋ ๊ฒ์ด๋ค.
Model: kernel trick
์์์ ๋ณธ ๊ฒ์ฒ๋ผ input space ์์์๋ ์ ๋๋ก decision boundary๋ฅผ ์ฐพ์ ์ ์๋ ๋ฌธ์ ๋ผ๊ณ ํ๋๋ผ๋ ์๋ค๋ฅผ ๋ค๋ฅธ ์ฐจ์์ผ๋ก data๋ฅผ ์ฎ๊ธฐ๋ฉด, ์ฆ feature space๋ฅผ ๋ฐ๊พธ๋ฉด(transformation), ๊ฑฐ๊ธฐ์๋ decision boundary๊ฐ ์๊ธธ ์ ์๋ค๋ ๊ฒ์ด kernel trick์ ํต์ฌ์ด๋ค. ๊ทธ๋ ๊ฒ ๋ฐ๊พธ๊ณ ๋์ classify๋ฅผ ํด๋ณด์ ํ๋๊ฒ ๊ธฐ๋ณธ์ ์ธ ์๊ฐ์ธ ๊ฒ์ด๋ค.
์ด๋ ๊ฒ ๋ฐ๊พธ๋ ๊ฑฐ๋ฅผ kernel function์ ์ด์ฉํด์ ํํํ ์ ์๋ค๋ฉด, optimal solution์ ์ฐพ๊ธฐ ์ํ ๊ณ์ฐ์ ํ๋ค ๋ณด๋ฉด ์๋์ ๊ฐ์ ์๋ค๊ณผ ๋ง๋ ์ ์๋ค. 2๊ฐ์ data ์ , ๊ทธ 2๊ฐ์ data point ์ฌ์ด์ ์ด๋ฐ ๊ณฑ์ ๊ตฌํด์ผํ๋ ์ผ์ด ์๊ธฐ๋๋ฐ ๊ฐ๊ฐ์ ๋ค๋ฅธ feature space๋ก ๋ณด๋ธ ๊ฒ์ด๋ค. ์ ๋ฅผ transformํด์ ์ ๋ก ๋ฐ๊พผ๋ค. ๊ทธ ๋ค์์ ๊ทธ๋ค ์ฌ์ด์ ๊ณฑ์ ๊ตฌํ๋ ๋ฌธ์ ๋ก ๋ฐ๊พธ๋ฉด classification์ด ์ ๋๊ธฐ๋ ํ๋๋ผ๋ผ๋ ์ด์ผ๊ธฐ์ด๋ค.
์ด๋ค transformation์ ํ ์ ์๋๊ฐ ํ๋ฉด, ์์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, linear, polynomial, sigmoid, gaussian ์ด๋ฐ ๊ฒ๋ค์ด ๊ฐ๋ฅํ๋ค. ์ด์ ํฅ๋ฏธ๋ก์ด ๊ฒ์ ๊ทธ๋ ๊ฒ transformation์ ํ๋ผ๊ณ ํ๋ฉด transformation ํ๋ ์๊ฐ์ด ํ์ํ๊ณ ๊ฑฐ๊ธฐ ๊ฐ์ ๊ณฑํด์ผ ํ๋๋ฐ ๋ง์ ๊ฒฝ์ฐ ์ด transformation์ด ์ฐจ์์ด ๋์ด๋๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ฉด ๋์ด๋ ์ฐจ์์์ ๊ณฑํด์ผ ๋๋๊น ๊ณ์ฐ๋์ด ํจ์ฌ ๋์ด๋๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด SVM ๋
ผ๋ฌธ์์ ํฅ๋ฏธ๋ก์ด ๊ฒ์ ์ด๋ ๊ฒ transformationํ ๋ค์์ ๊ณฑ์ ๊ตฌํ๋ ๊ฒ์ด ํ๋์ kernel function์ผ๋ก ๊ทธ๋ฅ ํํํ ์ ์๋ค๋ ๊ฒ์ด๊ณ , ๊ฐ transformation์ ์์ด kernel function์ด ์ ๊ทธ๋ฆผ์ ํ๋ ๋ถ๋ถ์ฒ๋ผ ํํ์ด ๊ฐ๋ฅํ๋ค. ๊ทธ๋์ ์ฒ์์ ๋๋ฆฌ๋ transformation์ ๊ฐ๊ฐ ํ ๋ค์์ ๋์ด๋ ์ฐจ์์์ ๊ณฑ์ ๊ตฌํ๋ ๊ฒ ์๋๋ผ ํจ์ฌ ๊ณ์ฐ๋์ ์ ๊ฒํ๊ณ ๋ ๊ฐ์ ์ผ์ ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋ณด์ฌ์ค์ผ๋ก์ ์ด์ ํ์ต์ ํ ๋ ๊ทธ์ ์ ํ์ ํ๋ฉด ๋๋ฉฐ, ๊ทธ๋ฐ ์ ํ์ ์์ด kernel fuction์ ์ด์ฉํ๋ฉด ๊ณ์ฐ์ ๋นจ๋ผ์ง๋, ๊ณ์ฐ๋์ ๋์ด๋์ง ์๋๋ค. ( ๊ณ์ฐ๋์ด ๋์ด๋๊ธฐ๋ ๋์ด๋๋ค. ์๋ํ๋ฉด feature space๋ฅผ ํ์ฅ ์ฐจ์์ ๋๋ ค๋จ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ๋์ด ์ค์ด๋ค ์๋ ์๋ค. ๋จ, ๋ฏธ์น๋ฏ์ด ๋์ด๋์ง๋ ์๋๋ค๋ ๊ฒ์ด๋ค.)
kernel function์ ๋ค๋ฅธ ๊ฒ์ ์จ์ SVM์ ์๋ํด๋ณด๋ ๊ฒ๋ ๊ฐ๋ฅํ๋ฐ, non-linearํ ๊ฒ๋ค์ ์ฐ๊ธฐ ์์ํ๋ฉด ์ค์ ์๋๋ ๊ต์ฅํ ๋๋ ค์ง๋ค. ์ฐ๋ฆฌ๊ฐ ๋ณด๊ณ ์๋ ๊ฒ ์ฒ๋ผ SVM ํ์ต ์์ฒด๋ฅผ ์ฌ๋ฌ ๋ฒ ํด์ผํ๋ ์ด๋ฐ ์ํฉ์์๋ ๊ณ์ฐ๋์ด ์๋ ๋ง๊ธฐ ๋๋ฌธ์ kernel function์ ๋ค๋ฅธ ๊ฑธ ์ฐ๋ ๊ฒ ๊ทธ๋ ๊ฒ ๋ฐ๋์งํ ์ํฉ์ ์๋ ๊ฒ์ด๋ค.
Percolator iteration
์ด percolator๊ฐ ํ๋ ์ผ์ ๋ํด ์ ์ฒด์ ์ธ ๊ฒ์ ์ดํด๋ณด์๋ค. ๋ค์์ผ๋ก data๋ฅผ ์ด๋ค ์์ผ๋ก iteration์ด ๋ฐ๋ณต๋๋ฉด์ ๋ฐ๊พธ๋์ง, ๊ทธ ๋ค์์ ํ์ต์ ์ฌ์ฉํ SVM์ด๋ผ๋ model์ด ์ด๋ค ๊ฒ์ธ์ง ์ด๋ ๊ฒ ํ๋๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ป๊ฒ ๋์๋์ง ์ดํด๋ณด์.
์ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ Crux๋ ์ด์ SEQUEST๋ฅผ ๊ต์ฅํ ๋น ๋ฅด๊ฒ ์คํํ ์ ์๊ฒ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๊ฐ ๊ฐ์ ํ software์ด๋ค. Crux๋ฅผ ๋๋ ค์ Crux๊ฐ ์ฃผ๋ p-value๋ฅผ ๊ฐ์ง๊ณ target-decoy๋ฅผ ํด๋ดค๋๋ ๊ฐ์ FDR 1%์์ ๊ทธ๋ํ ๋ด ์ฃผํฉ์๊ณผ ๊ฐ์ด ID๊ฐ ๋์๋ค. ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ Crux๋ฅผ ๋๊ฐ์ด ๋๋ฆฌ๊ณ ๊ทธ๊ฑฐ์ ๋ํด์ percolator๋ฅผ ์คํํ๊ณ ๋ฌ๋๋ ๊ทธ๋ํ ๋ด ํ๋์๊ณผ ๊ฐ์ด ID๊ฐ ๋์ด๋ฌ๋๋ผ ํ๋๊ฒ ์ด ์ฌ๋๋ค์ ์ฃผ์ฅ์ด๋ค. ๊ทธ๋์ ์ ์ฒด psm์ target psm 137๋ง๊ฐ ์ง๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์ผ์ ํด๋ณด๋ ์ด๋ ๊ฒ FDR๋ณ๋ก ID๋๋ ๊ฐฏ์๊ฐ ๋ฐ๋๋๋ฐ ์ฐ๋ฆฌ๊ฐ ๋ง์ด ์ฌ์ฉํ๋ ๊ทผ์ฒ(์ ์ )์์๋ ์ด๋ ๊ฒ ์ฐจ์ด๊ฐ ๋ง์ด ๋ฌ๋ค๋ ๊ฒ์ด๋ค.
Search๋ ๋์ผํ ๊ฒ์ ํ๋๋ฐ ๋ค์ percolator๋ฅผ ๋๋ฆฌ๋๋ ์ ๋๋ฆฌ๋๋์ ๋ฐ๋ผ์ ID์ ๊ฐฏ์๊ฐ ์ ๋ ๊ฒ ์ฐจ์ด๊ฐ ๋ง์ด ๋ฌ๋ค. 4์ฒ 8๋ฐฑ๋ง๊ฐ๊ฐ 5์ฒ 5๋ฐฑ๋ง๊ฐ๊ฐ ๋์ผ๋ฉด 10%๋ณด๋ค๋ ๋ ๋ง์ด ๋์ด๋ ๊ฒ์ด๋ค.
์ด์ ์ ๋์ด๋ฌ๋๊ฐ๋ฅผ ์๊ฐํด๋ณด๋ฉด, ์ฐ์ percolator์์ feature๊ฐ ๋ ๋ง์ด ์ฐ์๋ค. ๊ทธ๋ ๋ค๋ฉด target-decoyํ ๋ input feature๋ฅผ ๋ง์ด ์ฐ๋ฉด ๋๋๊ฑฐ ์๋๋๊ณ , target-decoyํ ๋ ๊ธฐ์ค ํ๋๋ง ์ฐ์ง ๋ง๊ณ ์ฌ๋ฌ ๊ฐ ์ ์กฐํฉํด์ ์ฐ๋ฉด ๋๋ ๊ฑฐ ์๋๋๊ณ ๋ฐ๋ฌธํ ์ ์๋๋ฐ, ๊ทธ๊ฒ๊ณผ๋ ๋ฐฉ๋ฒ์ด ์ข ๋ค๋ฅด๋ค.
ํ์ต์ด ๋ค์ด๊ฐ ๊ฒ์ด๋ค. ๊ฐ feature์ ์ค์๋ weight๋ฅผ ํ์ตํ ๊ฒ ๊ฐ์๋ฐ ๊ฒฐ๊ตญ์ ์ค์๋ data์ ํน์ฑ์ ํ์ตํ ๊ฒ์ด๋ค. overfitting์ ํ๊ณ ์๋ ๊ฑฐ ์๋๋๋ ์์ฌ์ด ๋ค ์ ์๋๋ฐ validation๊ณผ test๊น์ง ๋ค ์ ํด๋ด๋ ๋น๊ต์ ์ธ ๋ง ํ๊ณ , overfitting ํ๋ ๊ฒฝ์ฐ๋ ๋๋ฌผ๋ค๋ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ์ ํน์ ํ data์ ์๋ง๋ feature์ ์กฐํฉ์ ํ๊ธฐ ๋๋ฌธ์ด๋ค๋ผ๊ณ ์๊ฐํ๊ณ ์๋ค.
์ด์ ๋ ํ๊ฐ์ง๋ ์ฌ๋ฌ feature๋ฅผ ๋ฌผ๋ก ์กฐํฉํ๋ ๊ฑฐํ๊ณ ์๊ด์ด ์๋๋ฐ ๊ทธ๋ฅ ์๋ target-decoyํ ๋๋ ๋๊ฒ๋ ์ด์ database search ์๊ณ ๋ฆฌ์ฆ์ด ์ฃผ๋ score ํ ๊ฐ๋ฅผ ์ฌ์ฉํ๋ค. (DBSearch ์๊ณ ๋ฆฌ์ฆ์ match๋ฅผ ์ํฌ ๋ ๊ทธ spectrum ํ๋๋ง ๋ณธ๋ค. ๊ทธ set ์ ์ฒด๋ฅผ ๋ณด์ง ์๋ ๊ฒ์ด๋ค. ๋๋ฌธ์ set ์ ์ฒด๊ฐ ๊ฐ์ง๋ ์ด๋ค statisticalํ ์ ๋ณด๋ค์ ํ๋๋ ํ์ฉ์ ์ํ๊ฒ๋๋ค.) ๊ทธ๋ฐ๋ฐ ์ด์ percolator๋ฅผ ์ฌ์ฉํ๋ฉด set ์ ์ฒด์ ํน์ฑ๋ ๋ฐ์ํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
- Scan ํ๋๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๋ณด์ง ์๊ณ ์ ์ฒด set์ ๋ํ ๊ฒ์ ํ์ฉํ ์ ์๋ค๋ ์ ๊ณผ ํน์ ํ data์ feature๋ก ์ฐ์ด๋ ๊ฒ๋ค์ ์ค์๋๋ฅผ ๋ค ์ด๋ ๊ฒ ์ ์ ํ ์กฐ์ ํด์ ๊ฑฐ๊ธฐ์ acceptiveํ๊ฒ ํ ์ ์๋ค๋ ์ ์์ ์ด๋ ๊ฒ ID๊ฐ ๋์ด๋ ๊ฒ ์๋๊ฐ ์๊ฐํด๋ณผ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ด์ percolator์ ๋จ์ ์ tool๋ง๋ค feature set์ด ๋ค๋ฅด๋ค๋ ๊ฒ์ด๋ค. ํด์ ๊ณตํต๋ ์ด๋ค feature๋ฅผ ์ฌ์ฉํ ์ ์๋ ํด์ ์ด๋ฐ ์ฐ๊ตฌ๋ฅผ ํ ๊ฒ์ด ์์ ์ฌ์ง์ด๋ค.
Model: Other classification model
percolator์ ๋ํ ์ค๋ช ์ ์ฌ๊ธฐ๊น์ง์ด๋ฉฐ, ๋ช๊ฐ์ง classification์ ๋ง์ด ์ฐ์ด๋ ํ์ต model์ ์์ฃผ ๊ฐ๋จํ ์น๊ตฌ๋ค์ ํ ๋ ๊ฐ์ง๋ง ์ดํด๋ณด์.
Model: logistic regression
classification์ ํ ๋ ๋ง์ด ์ฐ์ด๋ ๊ฒ ์ค์ ํ๋๊ฐ ์ด logistic regression์ด๋ค. ์๋ฅผ ๋ค์ด์ ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ๋ช ์๊ฐ ๊ณต๋ถํ๋๋์ ๋ฐ๋ผ์ ์ํ์ ํต๊ณผํ ํ๋ฅ ์ด ์๋ค๊ณ ํ์. data point๋ค์ ์ดํด๋ณด๋ฉด ์ด๋ค ์ฌ๋์ 3์๊ฐ ๊ณต๋ถํ๊ณ ํฉ๊ฒฉํ๊ณ , ์ด๋ค ์ฌ๋์ 3์๊ฐ ๊ณต๋ถํ๊ณ ๋จ์ด์ก๊ณ , 1์๊ฐ ๊ณต๋ถํ ์ฌ๋์ ๋จ์ด์ก์์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋์ ๊ฒฐ๊ณผ๋ ๊ฒฐ๊ตญ ๋ถ์๋ ๋จ์ด์ก๋์ ๊ฐ์ด binary๋ก ๊ด์ฐฐ์ด ๋๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฐ๋ฐ ์๋ฅผ ๋ค์ด์ ์ด๊ฑฐ๋ฅผ linear regression์ ํ๊ฒ ๋ค๋ผ๊ณ ์๊ฐํ๋ฉด, ์ด ์ฃผ์ด์ง data point์ ๋ํด์ error๊ฐ ๊ฐ์ฅ ์๊ฒ ์ง์ ์ ๊ธ๋ ๋ฐฉ๋ฒ์ ์ ์ ๊ฐ์ ๊ฒ์ด๋ค. (2์๊ฐ ๊ณต๋ถํ๋ฉด ๋ถ์ ํ๋ฅ ์ด 0.1์ด๊ณ , 3์๊ฐ ๊ณต๋ถํ๋ฉด ๋ถ์ ํ๋ฅ ์ด 0.6์ด๊ณ , 5์๊ฐ ๊ณต๋ถํ๋ฉด ๋ถ์ ํ๋ฅ ์ด 1์ด๋ค์ ๊ฐ์ด ๊ฐ์ ์ฃผ๋ ์ง์ ์ด ๋ ๊ฒ์ด๋ค.)
ํ์ง๋ง ์๋ ๋ฑ๋ด๋ ๋ถ์ ์ ์ ์ผ๋ก ๋ํ๋ด๊ธฐ ๋ณด๋ค๋ ์ด๋ก์ ์ ์ ๊ณผ ๊ฐ์ด ๋ํ๋ด์ผ ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค. input feature๋ ๊ณต๋ถํ ์๊ฐ ํ๋๋ฐ์ ์์ง๋ง ์ด๋ฐ ์์ผ๋ก decision boundary๋ฅผ ์ ํด์ผ ํ๋ค. ๋ ์ฌ๊ธฐ์๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ฒฐ๊ตญ์ decision boundary๋ฅผ ์ ์ ํ๋ ค๋ฉด ๋ฏธ๋ถ์ด ๋์ด์ผ ํ๋๋ฐ, ์ด step function(์ด๋ก ์ ์ )์ ํํ๋ก๋ ๋ฏธ๋ถ์ด ์๋๋ค. ๋ฐ๋ผ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํจ์๋ก ๋ฐ๊ฟ ์ค ๊ฒ์ด ํ๋์ ์ , ์ฆ logistic function, ์ค์ฌ์๋ sigmoid function์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๊ทธ ํจ์๋ ์๋์ ๊ฐ์ด ์๊ฒผ๋ค.
์ฌ๊ธฐ์ ๋ ์ผํฐ๋ฅผ 0์ ๋ง์ถ๊ธฐ ์ํด์ ํ๊ท ๋งํผ ์ด๋ ๊ฒ shiftํ๋ ๊ฒ์ด๋ฉฐ, ์ ๊ธฐ๋ณธ๊ผด์ด logistic function์ด๊ณ ์ฌ๊ธฐ์ ๊ณผ , ๊ฐ ๊ฐ๊ฐ 1, 1, 0์ผ ๋๋ฅผ sigmoid function์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ๋ค. classification ๋ฌธ์ ์์ ์ ๊ทธ๋ํ๊ฐ ๋์ถ์ด ๋์์ผ๋, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ์ด parameter๋ฅผ ๊ตฌํ๋ ๋ฌธ์ ๋ก ๋ณด๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ฅผ ๊ตฌํ๋ฉด ๋ฌธ์ ๋ก ํด๊ฒฐ์ ํ๋ฉด ๋๊ณ , ๊ตฌํ๋ ๋ฐฉ๋ฒ์ stocastic gradient descent ๋ฐฉ๋ฒ, ์ฆ ํธ๋ฏธ๋ถ์ ํด์ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๊ณ์ weight๋ฅผ, parameter๋ค์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ผ๋ก ํ๋ฉด ๋๋ค.
logistic function์ด ์ข์ ์ด์ ๋ ๋ฏธ๋ถํ ํจ์๊ฐ ๋ฑ ํฌ๋ก์ค ํผ์ผ๋ก ๊ตฌํด์ง๊ธฐ ๋๋ฌธ์ ์ด๋ ต์ง ์๊ฒ ๊ทธ ๊ฐ์ ๊ตฌํ ์ ์์์ ์๋ค. ์ฆ, gradient๋ฅผ ์ฝ๊ฒ ๊ตฌํ ์ ์์ด ํธ๋ฆฌํ๊ณ , ์ด ๋๋ฌธ์ logistic regression์ classification๋ฌธ์ ์์ ๊ต์ฅํ ๋ง์ด ์ฌ์ฉํ๋ค.
Model: decision tree
classification์์ ๋ง์ด ์ฐ์ด๋ ๋ ๋ค๋ฅธ ๊ฒ decision tree์ด๋ค. tree์ ํํ๋ก decision tree์ node๋ ์ด๋ค feature์ ํด๋นํ๋ ๊ฒ์ด node๊ฐ ๋๋ค. ๊ทธ feature์ ๊ฐ์ด ๋ญ๋๊ฐ ๊ฐ๊ฐ์ edge๋ก ๋ํ๋ด์ด์ง๋ค. ๊ทธ feature ๊ฐ์ ๋ฐ๋ผ์ ์ฃผ์ด์ง data๋ฅผ ์๋์ ๊ฐ์ด ๋๋๊ฒ ๋๋ค. ์ด feature๊ฐ ๋ญ์ง ๋ชจ๋ฅด์ง๋ง, ์ด feature ๊ฐ์ด A์ธ ์ ๋ค์ด A subtree์ ๋ค์ด๊ฐ๊ณ , B์ ํด๋นํ๋ฉด ๊ทธ๋ค์ B subtree์, ๊ทธ๋์ tree์ root์์ ์์ํด์ ์๋๋ก ๋ด๋ ค๊ฐ๋ฉด ๋ด๋ ค๊ฐ์๋ก ์ ์ ๊ทธ ํด๋น feature์ ๊ฐ์ ํด๋นํ๋ ๊ทธ subset์ผ๋ก ์ค์ฌ๋๊ฐ๋ ๊ฒ์ด๋ค.
data๋ ๊ทธ๋ฅ ์ด feature๋ค์ ๊ฐ์ผ๋ก ํํ๋ ํํ๋ก ๋ํ๋๋ฉฐ, ์ฝ๊ฒ ๋งํ๋ฉด ์์ ์ํธ์ ํํ๋ก data๊ฐ ์๋ ๊ฒ์ด๋ฉฐ ๊ทธ data๋ก๋ถํฐ ์์ ๊ฐ์ tree๋ฅผ ํ์ตํ๋๊ฒ ๋ชฉํ์ธ ๊ฒ์ด๋ค. data๊ฐ 100๊ฐ ํน์ 1์ฒ ๊ฐ, 1๋ง ๊ฐ ์ฃผ์ด์ ธ์๋คํ๋๋ผ๋ data๋ฅผ ์ฝ์ด์ ๊ฐ๊ฐ์ feature๋ค์ ๊ฐ์ ํตํด ์ด๋ป๊ฒ tree๋ฅผ ๋ง๋ค๊ฑฐ๋๋ฅผ ์๊ฐํด๋ณด์. ์ด tree๋ฅผ ๋ง๋ค๊ณ ๋๋ฉด ๊ทธ ๋ค์์๋ ์ด๋ ํ data๊ฐ ์ค๋๋ผ๋ ๊ทธ๋ฅ tree๋ฅผ root์์๋ถํฐ ๋ฐ๋ผ ๋ด๋ ค๊ฐ๋ฉด classify๊ฐ ๋๋ค. ํ์ต data์๋ ์ค์ ๋ก๋ ์กด์ฌํ์ง ์์๋๋ผ๋, ๊ทธ๋ฐ feature combination์ด ์กด์ฌํ์ง ์์๋๋ผ๋, ์ด๋ฐ decision tree๊ฐ ํ๋ ๋ง๋ค์ด์ง๋ฉด ์ด๋ค data๋ ๊ฒฐ์ ํ ์ ์๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ตญ์ root์ ์ด๋ค attribute(=feature)์ ๊ณ ๋ฅผ๊ฑฐ๋๋ก๋ถํฐ ์์๋๋ค. decision tree๋ฅผ ๋ง๋ค ๋๋ root๋ถํฐ ๋ง๋ค๊ณ ์งํํ๋ค. ์ด๋ ๋ชจ๋ ๊ฐ๋ฅํ tree๋ฅผ ๋ค ์๋ํด ๋ณด๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค. ๊ทธ๋์ ์ด๋ป๊ฒ approximation์ ํ๋๊ฑฐ๋๋ฉด, ๊ทธ๋ฅ ๊ฐ๊ฐ์ ์์น์์ ๊ฐ์ฅ ๋ฐ๋์งํ feature๋ฅผ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ด๋ค. ๊ฐ๊ฐ์ ์์น๋, ๊ทธ subtree์ ํด๋นํ๋ root๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ด๋ค. ๊ฐ feature์ ๊ฐ์ ๋ฐ๋ผ์ classify๋ฅผ ํด๋ณด๊ณ , ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์๋๊ฐ๋ฅผ ํตํด ๋ ๋์ ๊ฒ์ root์ ์๋ feature๋ก ์ ํํ๋ค. ์ดํ classify๊ฐ ์ ๋์ง ์์ subtree์ ๋ํด์๋ง ์ด๋ค feature๋ฅผ ์ฐ๋ฉด ๋ ์ ๋๋ ์ ์์๊น ํ๋๊ฑฐ๋ฅผ ๋๊ฐ์ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. ์ ๊ทธ๋ฆผ์์ ์ง๊ด์ ์ผ๋ก๋ patron์ด type๋ณด๋ค ๋ ์ข์ feature์ธ ๊ฒ์ ์๊ฒ ๋๋ฐ, ๊ฐ๊ด์ ์ผ๋ก๋ ์ด๋ป๊ฒ ํ๋จํ ๊น๋ผ๋ ์๋ฌธ์ด ๋ค ์ ์๋ค. ๊ทธ์ ๋ํ ํด๋ต์ ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Entropy๋ผ๋ ๊ธฐ์ค์ผ๋ก ๋ต๋ณ์ ํ ์ ์๊ฒ ๋ค.
entropy๋ผ๊ณ ํ๋ ๊ฒ์ Information Content๋ฅผ ์๋ฏธํ๋ค. ์ฌ๊ธฐ์ ์ feature์ ๊ฐ์ ์๋ฏธํ๋ฉฐ, ๊ฐ๊ฐ์ ๊ฐ์ ํด๋นํ๋ dataset์ด ์์ผ๋ฉด ๊ทธ data๊ฐ ์ ์ฒด์์ ํ๋ฅ ์ด ์ผ๋ง๋ ๋๋๊ฐ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ ์ด๋ค. ํ๋ฅ ์ ๊ฒฐ๊ตญ ๋ถ์์ ํํ(fraction)๋ก ๋ณผ ์ ์๋ค.
์๋ฅผ ๋ค์ด, feature์ ๊ฐ์ ๋ฐ๋ผ์ ๊ฐ ์์ผ๋ฉด ๊ฐ๊ฐ์ ๊ฐ์ ๋ฐ๋ผ์ ์ด๋ค์ fraction์ ๊ฐ์ง๊ณ ๋ฅผ ๊ตฌํ ๋ค์์ SUMํ ๊ฒ์ Entropy๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์์ ๋ดค๋ ๊ทธ๋ฆผ์ ์๋ก ๋ค์ํ๋ฒ Entropy์ ๊ด๋ จํ์ฌ ์ดํด๋ณด์.
์ฌ๊ธฐ์ ๋ถํ์ ๋๊ทธ๋ผ๋ฏธ์ ๊ฒฝ์ฐ, 6๊ฐ ์ค์ 2๊ฐ๊ฐ positive, 4๊ฐ๊ฐ negative๋ก ๋ํ๋ฌ๋ค. ์ด๋์ entropy๋ ๊ณ์ฐํด๋ณด๋ฉด ์๋์ ๊ฐ์ด ๊ตฌํด์ง๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก some๋ถ๋ถ์ entropy๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด, ์๋์ ๊ฐ์ด ๊ตฌํด์ง๋๋ฐ ๋ ์ ์ํ ์ ์์ง๋ง ์์ ๊ณฑํด์ง ๋ก 0์ด ๋๋ค.
์ด๋ฅผ ํตํด ๋ชจ๋ ๋ค ๊ฐ์ label์ ๊ฐ์ง๊ณ ์์๋ entropy๊ฐ ๊ฐ์ฅ ๋ฎ์์ ํ์ธ ํ ์ ์๋ค.
๊ทธ๋์ entropy ํจ์๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๊ทธ๋ ค์ง๋ค.
๊ทธ๋ฌ๋๊น ํ label, ์ฆ positive๊ฐ 1 ํน์ 0 (์ ์ฒด๊ฐ 1๋ก ๋ณธ ๊ฒฝ์ฐ), ์.. ํ๋ฅ ๋ก ๋ณด๋๊ฒ ์ข์ ๊ฒ ๊ฐ๋ค. ํ๋ฅ ๊ฐ 1 ํน์ 0์ผ ๋, entropy๋ 0์ด ๋๊ณ , ๋ฐ๋๋ก ์ผ๋ ๊ฐ์ฅ ๋์ ๊ฐ์ธ 1์ ๊ฐ์ ๊ฐ๋๋ค. ์ฌ๊ธฐ์ ํ๊ณ ์ถ์ ์ด์ผ๊ธฐ๋ ๊ฐ๊ฐ์ partion์ด ๊ฐ์ง๋ ์ด entropy๊ฐ ์๋๋ฐ, ์ด entropy๋ฅผ ์ ์ฒด partion์ ๋ํด์ SUMํด๋ณด๋ฉด (weighted sum) ๊ทธ entropy๊ฐ ๊ทธ feature์ information์ด๋ผ๊ณ ์๊ฐํ๋ ๊ฒ์ด๋ค. ์ด๋ค ์ ๋ณด์ ์์ด๋ผ๊ณ ์๊ฐํ๋๋ฐ, entropy๊ฐ ๋ฎ์ผ๋ฉด ๋ฎ์์๋ก ์ ๋ณด์ ์์ด ๋ง๊ณ , ๋ฐ๋ฐ์ด๋ฉด entropy๊ฐ ๊ฐ์ฅ ํด ๋์ด๊ณ , ๊ทธ๋๋ ์๋ฌด๊ฒ๋ ๋ชจ๋ฅด๋ ์ํ, ์ฆ positive์ธ์ง negative์ธ์ง ์ ์ ์๋ ์ํ์ธ ๊ฒ์ด๋ค.
์์ ์ค๋ช ํ ๊ฒ์ฒ๋ผ feature๋ฅผ ์ ํ๋ฉด ๊ฐ๊ฐ์ subtree์ ํด๋นํ๋ partion๋ค์ด ์๊ธฐ๊ณ ๊ฐ subtree์ ๋ํด์ ๋๊ฐ์ ์ผ์ ๋ฐ๋ณตํ๋ ๊ฒ์ด๋ค. ์ด subtree์ ํด๋นํด์ ๋ค์ root๋ฅผ ๋๊ตฌ๋ก ์ ํ ๊ฑฐ๋ ํ๋ฉด, ์ ๋ณด์ ์์ด ๊ฐ์ฅ ๋ง์ feature๋ฅผ ๊ณ ๋ฅด๊ฒ ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฐ ์์ผ๋ก ๊ณ์ ๋ฐ๋ผ๊ฐ๋ฉด์ ๊ฐ๋ฅด๊ณ ๊ฐ๋ฅด๋ฉด ์ธ์ ๊ฐ๋ ๋ค ๋๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ๊ฒฐ๊ตญ decision learning์ ๊ฐ๋ ์ธ ๊ฒ์ด๋ค. ๋ฌธ์ ๋ ๋๋ฌด ์ ๊ฐ๋ฅด๋ค๋ณด๋ overfitting์ด ๋๋ ์ผ๋ค์ด ๊ต์ฅํ ๋ง๋ค๋ ์ ์ด๋ค.
Model: random forest
๊ทธ๋ฐ ๋ถ๋ถ์ ๊ทน๋ณตํ๊ธฐ ์ํด์ ๋๋ฌด ๋ง์ด ๊ฐ๋ฅด์ง ์๊ฒ ์ผ์ ํ size๊ฐ ๋๋ฉด ๋ ์ด์ ๋๋์ง ์๋ ์ด๋ฐ ์ผ๋ ํ๊ณ ๊ฐ๋์ ์ด๊ฒ ๊ฐ๋๋ ๊ฑธ ๋ค์ ๋ญ์น๋ ์ด๋ฐ ํ์ฒ๋ฆฌ๋ ํ๊ณ ์ฌ๋ฌ๊ฐ์ง ๊ธฐ์ ๋ค์ด ๋ง์ด ์์ง๋ง, ์ฌ์ ํ decision tree๋ ๋น๊ต์ overfitting์ ๋ง์ด ํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค.
๊ทธ๋์ ๊ทธ๊ฒ์ ๊ทน๋ณตํ๊ธฐ์ํด ์ฌ๋๋ค์ด ๋ญ ์ฐ๋๋ฉด ์ด random forest๋ผ๋ ๊ฒ์ ์ด๋ค. ๋ฌธ์ ๊ทธ๋๋ก forest์ด๋ค. tree๊ฐ ์ฌ๋ฌ ๊ฐ, ์ฆ decision tree๋ฅผ ์ฌ๋ฌ ๊ฐ ๋ง๋๋ ๊ฒ์ด๋ค. decision tree ๋ง๋๋ ๊ฒ ์๊ฐ์ด ๋๊ฒ ๋น ๋ฅด๊ธฐ๋ ํ๊ณ , ์๊ฐํด ๋ณด๋ฉด feature๊ฐ n๊ฐ ์์ผ๋ฉด ๊ทธ์ค์ ํ๋ ๊ณ ๋ฅด๊ณ , ๊ทธ๋ค์์ ๋๋จธ์ง ์ค์ ๋ ํ๋ ๊ณ ๋ฅด๊ณ , ๊ทธ๋ฅ ์์๋๋ก ๊ฐ๋ ๊ฒ์ด๊ณ , ์ฌ์ค ์ information entropy๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ ๋ ๊ฐ๋จํ๊ธฐ๋ ํ๋ค. frequency count๋ฅผ ํด์ ๊ทธ๊ฑธ๋ก ๊ณ์ฐ๋ง ํ๋ฉด ๋๋ฏ๋ก ๊ต์ฅํ ๊ฐ๋จํ๊ธฐ ๋๋ฌธ์ decision tree ๋ง๋๋๋ฐ ํ์ํ ๊ณ์ฐ๋์ด ๋ง์ง ์๋ค. ๊ทธ๋์ ์ด์ ์ด forest๋ฅผ ๋ง๋ค์ด๋ ์๊ฐ์ด ๋ณ๋ก ์ ๊ฑธ๋ฆฌ๋ ๊ฒ์ด๋ค.
์์ random์ด ๋ถ๋ ์ด์ ๋ ๊ฐ์ data๋ก decision tree๋ฅผ ๋ง๋ค๋ฉด ๋งจ๋ ๋๊ฐ์ tree๋ง ๋์ฌํ ๋, data๋ฅผ randomํ๊ฒ ๊ณจ๋ผ์ ์งํํ๋ ๊ฒ์ด๋ค. ๋ง์ tree๊ฐ ๋ง๋ค์ด ์ง๋ฉด, ์ด๋ป๊ฒ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ํ๋ฉด, majority voting, ์ฆ ๋ง์ ์ ๋ค์ด ์ฃผ๋ ๊ฐ์ผ๋ก ๊ทธ๋ฅ ์ด๋ค. ์ด๋ ๊ฒ ํ๋ ๊ฒ์ด random forest์ ์์ฃผ ๊ฐ๋จํ ํํ์ด๋ค.
์ด๋ ๊ฒ ํ๋ฉด ์ค์ ๋ก overfitting issue๊ฐ ๊ต์ฅํ ํด์๊ฐ ๋๊ณ , ๋ ์ด๊ฒ ensamble ๋ฐฉ๋ฒ์ ์ผ์ข ์ด๋ผ๊ณ ๋น์ฐํ ๋ณผ ์ ์๋ค.
- decision์ ๋น ๋ฅด๊ฒ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ๊ณผ overfitting๋๋ ๊ฒ์ ๊ทน๋ณตํ๋ ํ๋์ ๋ฐฉ๋ฒ์ผ๋ก์จ random forest๊ฐ ๊ต์ฅํ ๋ง์ด ์ฐ์ธ๋ค. ์ด ๋๋ฌธ์ classification์ ๋ฐฉ๋ฒ ์ค ํ๋.
Percolator summary
ํต๊ณ์ ์ผ๋ก statisticalํ validation ๋ฐฉ๋ฒ(ex. target decoy)์ ์๋๋ฉฐ, ๋ ์ด๋ค model์ด ์์ด์ ๊ทธ model์ parameter๋ฅผ ์ถ์ ํด์ ์ด๋ค FDR(False Discovery Rate)์ ์ถ์ ํ๋ ๋ฐฉ๋ฒ๋ ์๋๋ค. ์ฐธ ๋ฌํ ๋ฐฉ๋ฒ์ธ๋ฐ, ๋ ๊ฐ๋ฅผ mixํ๋ค๊ณ ๋ณด๋ฉด ๋ ๊ฒ ๊ฐ๋ค. ๋ญ๊ฐ model์ด ์๋ค๊ณ ๋ ์๊ฐ์ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋๊น SVM classifier๊ฐ model์ธ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ์ ์ด๋ค model์ด ์๊ณ ๊ทธ model์ด data๋ฅผ ์ ์ค๋ช ํ๋ weight parameter๋ค์ด ๋ญ๋ ํ๋ ๊ฒ์ ์ฐพ๋ ๋ฌธ์ ์ด๊ธฐ๋ ํ๋ฐ, ๊ทธ๋ฐ๋ฐ ์ด model parameter๋ฅผ ์ ์กฐ์ ํ๊ธฐ ์ํด์ ์ฐ์ด๋ data๋ ๋ target-decoy์์ ์จ ๊ฒ์ด๋ค. ํ๋ฒ iteration์ด ๋๋๊ณ ์ฌ์ ํ target-decoy ๋น์ทํ ๊ฑธ ํด์ FDR์ ์ถ์ ํด์ ๊ทธ๊ฒ์ผ๋ก label์ ์ฐ๋๊น, ๊ฒฐ๊ตญ์ target decoy ํ๋ ์ ์ธ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด 2๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ ํ mixํด์ ์ฌ์ฉํ๊ณ ์๋ค๋ ์๊ฐ์ด ๋ ๋ค. ์ด๊ฒ๋ ์ด๋ป๊ฒ ์๊ฐํ๋ฉด ์ผ์ข ์ EM ์๊ณ ๋ฆฌ์ฆ ๋น์ทํ ๊ฒ์ด๋ผ๊ณ ์๊ฐ ํ ์ ์๋ค. ๊ฒฐ๊ตญ์ ์ฐ๋ฆฌ๊ฐ ์ํ๋๊ฒ ์ด๋ค์ label์ ๊ตฌํ๋ ๊ฒ์ธ๋ฐ, label์ ๊ตฌํ๋ ค๋ฉด ๋ญ๊ฐ feature๋ฅผ ์ ํ์ฉํด์ ๋ค๋ฃฐ์ง๋ฅผ ์๋ฉด ๊ตฌํ ์ ์๋ค. ์ด๊ฑธ ์ด์ฉํด์ ๋ง์ถ๊ณ ์ด๋ฐ ๊ณผ์ ์ ๋ฐ๋ณต์ด๋ค๋ณด๋, ์ผ์ข ์ EM ์๊ณ ๋ฆฌ์ฆ์ด๋ค ๋ผ๊ณ ์๊ฐํ ์ ์๋ ๊ฒ์ด๋ค.
์ด ๊ณผ์ ์์ model์ ํจ์๋ linear SVM์ธ๋ฐ ์ด๋ฐ์๋ decision tree, random forest ๋ฑ์ ๋ํด์ ์ถ๊ฐ์ ์ผ๋ก ์์๋ณด์๋ค. percolator์ ๋ค์ด๊ฐ๋ feature๋ค๋ ์ ์ ๋ฆฌํ๋ฉด ์ข์ ๋ฏํ๋ค.
๋ณธ ๋ด์ฉ์ ํ์๋ํ๊ต ์ปดํจํฐ์ํํธ์จ์ดํ๊ณผ ๋ฐ ์ธ๊ณต์ง๋ฅํ๊ณผ ๋ฐฑ์์ฅ ๊ต์๋์ ๊ฐ์์๋ฃ์ ๋ฐํ์ผ๋กํ์ฌ ์์ฑ๋์์ต๋๋ค!
PS. ์ถ๊ฐ ๋ฌธ์์ฌํญ ๋ฐ ์ง๋ฌธ์ ํ์ํฉ๋๋ค. ๊ทธ๋ฅผ ํตํด ์ ๋ ๋ ์ฑ์ฅํ ์ ์์ํ ๋๊น์. :)
