[Proteomics] Percolator

โ€ขProteomics

Percolator

percolation์ด๋ผ๋Š” ํˆด์€ ์‹ค์ œ๋กœ ์ง€๊ธˆ์€ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ peptide validation์„ ํ• ๋•Œ ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ• ์ค‘์— ํ•˜๋‚˜์ด๋‹ค. Semi-supervised learning์„ ์“ฐ๊ณ  ์žˆ๊ณ , ๊ทธ๋Ÿฌ๋‹ค ๋ณด๋‹ˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ iterativeํ•˜๊ฒŒ ํ•™์Šต์„ ์—ฌ๋Ÿฌ๋ฒˆ ๋ฐ˜๋ณตํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

ํ•™์Šตํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” feature์˜ ์ง‘ํ•ฉ์€ DB search type, ์ฆ‰ ์–ด๋– ํ•œ tool๋ฅผ ์‚ฌ์šฉํ•˜๋А๋ƒ์— ๋”ฐ๋ผ์„œ ๋‹ค๋ฅด๊ฒŒ ์ •ํ•ด์ ธ ์žˆ๋‹ค. ์ฆ‰, DB search์— ์‚ฌ์šฉํ•œ ํˆด์— ๊ฐ€์žฅ ์ตœ์ ํ™”๋œ feature set์„ ์ด๋ฏธ ์ œ๊ณตํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ์–ด๋–ค ํŠน์ •ํ•œ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์— ๋Œ€ํ•ด์„œ ์šฐ๋ฆฌ๊ฐ€ validationํ•˜๊ณ  ์‹ถ์€ ๊ฑด๋ฐ, ๊ทธ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์— ๋Œ€ํ•ด์„œ model์„ ๋งค๋ฒˆ ์ƒˆ๋กœ ํ•™์Šต์‹œํ‚จ๋‹ค. peptide profit์ด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”์ •์ด ์ฃผ์–ด์ง„ dataset์— ๋Œ€ํ•ด์„œ ๋งค๋ฒˆ ์ƒˆ๋กœ ํ•œ ๊ฒƒ๊ณผ ๋น„์Šทํ•˜๊ฒŒ, ์—ฌ๊ธฐ์„œ๋„ dataset์ด ์ฃผ์–ด์ง€๋ฉด ๊ฑฐ๊ธฐ์— ๋งž๋Š” ์ ์ ˆํ•œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ์ผ์„ ๋งค๋ฒˆ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•œ๋‹ค๋Š” ๋ง์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ฐฉ๋ฒ•์€ ๊ฒฐ๊ตญ iterativeํ•œ SVM(Support Vector Machine)์„ ์ด์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Untitled

Semi-supervised

Semi-supervised์˜ ์ •์˜๋Š” ์ด๋ ‡๊ฒŒ ํญ ๋„“๊ฒŒ ์ด์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค. classification๋ฌธ์ œ๋ฅผ ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ดํŽด๋ณด๋ฉด, ๋ชจ๋“  data์— ํ•œํ•ด label์ด ์ฃผ์–ด์ง€๋ฉด Supervised, ์•„๋ฌด๊ฒƒ๋„ label์ด ์ฃผ์–ด์ง€์ง€ ์•Š์œผ๋ฉด Unsupervised๋ผ๊ณ  ํ•œ๋‹ค. ์ด๋•Œ Semi-supervised๋Š” data์˜ label์ด ์ผ๋ถ€๋งŒ ์ฃผ์–ด์ง€๋Š”, label์ด ์—†๋Š” data๋„ ์ฃผ์–ด์ง€๋Š” ๊ฒฝ์šฐ๋ฅผ ๋งํ•˜๋ฉฐ, ์ด๋Ÿฐ ๊ฒฝ์šฐ์— ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์กด์žฌํ•œ๋‹ค.

Untitled 1

Percolator๊ฐ€ ์‚ฌ์šฉํ•œ ๋ฐฉ๋ฒ•์€ iterativeํ•˜๊ฒŒ ํ•˜๋Š” ์ผ์ข…์˜ self-training์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ semi-supervised์ด๋ฏ€๋กœ, label์ด ์ผ๋ถ€๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์šฐ์„  target-decoy search๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค. targeting์„ searchํ•˜๋ฉด ๋ชจ๋“  spectrum์— ๊ฒฐ๊ตญ์€ peptide๊ฐ€ ๋‹ค assign์ด ๋œ๋‹ค. ๊ทผ๋ฐ ๊ทธ ์ค‘ ์šฐ๋ฆฌ๊ฐ€ label์„ ํ™•์‹ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ decoy match ๋ฟ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๊ทธ๊ฒƒ๋“ค์ด ๋‹ค false๋ผ๊ณ  ์šฐ๋ฆฌ๊ฐ€ label์„ ์ •ํ•ด๋„ ๋œ๋‹ค. decoy spectrum(decoy peptide์— match๋œ spectrum)์€ ๋‹ค label์„ 0์œผ๋กœ ์ฃผ์–ด๋„ ๊ดœ์ฐฎ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ๊ฑธ 1์ด๋ผ๊ณ  ํ•˜๊ณ  ์–ด๋–ค ๊ฑธ 0์ด๋ผ๊ณ  ํ•  ๊ฑฐ๋ƒ ๋•Œ๋ฌธ์— ์ด ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๊ณ , ์šฐ๋ฆฌ๊ฐ€ ๋งจ ์ฒ˜์Œ์œผ๋กœ ํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ target์— match๋œ ๊ฒƒ ์ค‘์— DB search score์— ๊ต‰์žฅํžˆ ๋†’์€ ์• ๋“ค ๊ทธ๋Ÿฐ ๊ฑด ํ™•์‹คํ•˜๋‹ค ๊ทธ๋Ÿฐ ์• ๋“ค์€ ์ ˆ๋Œ€๋กœ ํ‹€๋ฆด ์ˆ˜ ์—†๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๊ทธ๋Ÿฐ ์• ๋“ค๋งŒ ์ผ๋ถ€ label์„ 1๋กœ ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ์ƒ๋‹นํžˆ score๊ฐ€ ๋†’์•„์„œ ์ด๋Ÿฐ ์ ์ˆ˜ ์ด์ƒ์„ ๋ฐ›์•˜๋‹ค๋Š” ๊ฒƒ์€ ์ ˆ๋Œ€๋กœ ํ‹€๋ฆฐ match์ผ ์ˆ˜๋Š” ์—†๋‹ค๋ผ๊ณ  ํ•˜๋Š” ์–ด๋–ค ๊ธฐ์ค€์ด ์žˆ์œผ๋ฉด ๊ทธ ์ •๋„๋ฅผ label์„ ์ฃผ๊ณ , ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋ฅด๊ฒ ๋‹ค ์ด๋‹ˆ๊นŒ unlabeled๋œ ์ƒํƒœ๋กœ ๊ทธ๋ƒฅ ๋‘๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 2

์œ„์˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, decoy spectrum์€ ๊ทธ๋ƒฅ ๋“ค์–ด๊ฐ€๊ณ , decoy spectrum์— ๋Œ€ํ•œ match์™€ ๊ทธ ๋‹ค์Œ์— PSM target match ์ผ๋ถ€๊ฐ€ classifier๋ฅผ ๋งŒ๋“œ๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ์‚ฌ์‹ค ์ € ํ™”์‚ดํ‘œ๊ฐ€ ์‚ด์ง ์• ๋งคํ•œ๋ฐ ์ด ๋ฐ์ดํ„ฐ๋“ค์ด ์‚ฌ์‹ค์€ SVM Trainer๋กœ ๋“ค์–ด๊ฐ€๊ณ , ํ•™์Šตํ•˜๋Š” model์˜ ๊ทธ feature๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ์ด๋ฅผ ์ด์šฉํ•ด Classifier๋ฅผ ํ•˜๋‚˜ ๋งŒ๋“ ๋‹ค. ๊ทธ๋ž˜์„œ ์œ„์— ์ดˆ๊ธฐ๋ผ๊ณ  ๋”ฐ๋กœ ์ž‘์„ฑ์„ ํ•ด๋‘” ๊ฒƒ์ด๋‹ค.

์ดˆ๊ธฐ์— target๊ณผ decoy search ๊ฒฐ๊ณผ์—์„œ decoy PSM์€ ๋‹ค label์„ 0์œผ๋กœ ์ฃผ๊ณ , target PSM ์ค‘์— ๊ต‰์žฅํžˆ score๊ฐ€ ๋†’์€ ์• ๋“ค๋งŒ label์„ 1๋กœ ์ค€ ๋‹ค์Œ label์ด ์žˆ๋Š” ์• ๋“ค๋งŒ ๊ฐ€์ง€๊ณ  SVM training์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ ๊ฒฐ๊ณผ Classifier๊ฐ€ ํ•˜๋‚˜ ๋‚˜์˜ฌ ๊ฒƒ์ด๊ณ , ๊ทธ Classifier๋ฅผ ๊ฐ€์ง€๊ณ  ์ „์ฒด PSM์„ ๋‹ค์‹œ Classify๋ฅผ ํ•ด๋ณด๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฉด unlabeled target ์ค‘์— ์–ด๋–ค ์• ๋Š” 1, ์–ด๋–ค ์• ๋Š” 0 ์ด๋ ‡๊ฒŒ ๊ฐˆ ๊ฒƒ์ด๋‹ค.

  • ๊ทธ๋Ÿฐ๋ฐ ์ด์ œ ๋‹ฌ๋ผ์ง„ ์ ์€ ๋ญ๋ƒ ํ•˜๋ฉด ์ฒ˜์Œ์— ์šฐ๋ฆฌ๊ฐ€ target-decoy search ๊ฒฐ๊ณผ๋ฅผ ๋†“๊ณ  FDR์„ ์ถ”์ •ํ•  ๋•Œ ์‚ฌ์šฉํ–ˆ๋˜ ๊ฒƒ์€ score 1๊ฐœ ์˜€์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” SVM ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง€๋Š”๊ฒŒ score ์™ธ์—๋„ ๊ต‰์žฅํžˆ ๋‹ค์–‘ํ•œ feature๋“ค์ด ์ฃผ์–ด์ง„๋‹ค. ๋‹ค์‹œ ๋งํ•ด Search tool์— ์˜ํ•˜๋ฉด score๊ฐ€ ๊ต‰์žฅํžˆ ์ข‹์•„ ๋ณด์ด์ง€๋งŒ ๋‹ค๋ฅธ ์ธก๋ฉด์œผ๋กœ ๋ณด๋‹ˆ ์–˜๋Š” ๊ทธ๋ ‡๊ฒŒ ๋ฏฟ์„ ๋งŒํ•˜์ง€ ์•Š๋‹ค ์ด๋Ÿฌ๋ฉด rejectํ•  ์ˆ˜๋„ ์žˆ๋Š” ๊ฒƒ์ด๊ณ , search score๋Š” ์ข€ ๋‚ฎ์€ ๊ฒƒ ๊ฐ™์€๋ฐ ๋‹ค๋ฅธ ๊ฑฐ๋ฅผ ์‚ดํŽด๋ณด๋‹ˆ ์–˜๋Š” ๋ฏฟ์„ ๋งŒํ•˜๋‹ค ๊ทธ๋Ÿฌ๋ฉด ๋‹ค์‹œ ๋ฐ›์•„๋“ค ์ˆ˜๋„ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. search score ํ•˜๋‚˜๋งŒ ๊ฐ€์ง€๊ณ  ํŒ๋‹จํ•˜๋Š” ๊ฒŒ ์กฐ๊ธˆ ๋ถˆ์•ˆ์ „ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•ด์„œ ์ด training SVM trainer๊ฐ€ input์œผ๋กœ ๋ฐ›์•„๋“ค์ด๋Š” feature๊ฐ€ ํ›จ์”ฌ ๋‹ค์–‘ํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋ž˜์„œ ์ดˆ๊ธฐ์— SVM Trainer๊ฐ€ ๋งŒ๋“  Classifier๋ฅผ ๊ฐ€์ง€๊ณ  ์ „์ฒด PSM์„ ๋‹ค์‹œ ํ•œ ๋ฒˆ labeling์„ ์ง„ํ–‰ํ•œ๋‹ค. ๊ทธ๋ ‡๊ฒŒ label์„ ํ–ˆ์œผ๋ฉด ๊ทธ label๋œ ์• ๋“ค์„ ๊ฐ€์ง€๊ณ  ๋‹ค์‹œ ๋˜ FDR์„ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ’์€ classifier์˜ ์ถœ๋ ฅ์ด๋‹ค. ์›๋ž˜์˜ target-decoy search ๊ฒฐ๊ณผ๋ฅผ ์“ฐ๋ฉด ์ด๊ฒŒ ์˜๋ฏธ๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ง€๊ธˆ SVM์ด ๋งŒ๋“ค์–ด๋‚ธ Classifier๋ฅผ ๊ฐ€์ง€๊ณ  (Classifier์˜ ์ถœ๋ ฅ์€ 0 ๋˜๋Š” 1์ด์–ด์•ผ ํ•˜๋Š”๋ฐ, SVM์ด๋‹ˆ๊นŒ -1์—์„œ 1์‚ฌ์ด์˜ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค.) ์ ์ ˆํžˆ ์‚ฌ์šฉํ•ด์„œ FDR์„ ํ•œ๋‹ค. FDR์„ ํ•˜๊ณ ๋‚˜๋ฉด ๋˜ ์ƒˆ๋กœ์šด ํ™•์‹คํ•œ label์ด ์ƒ๊ธฐ๊ฒŒ ๋˜๋ฉฐ, FDR์„ ํ†ต๊ณผํ•œ ์• ๋“ค์€ label์ด 1์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ณ , ํ†ต๊ณผํ•˜์ง€ ์•Š์€ ์• ๋“ค์€ label์ด ์—†๋‹ค๊ณ  ๋ณธ๋‹ค. ๊ณ„์† ๊ฐ™์€ ์ƒํ™ฉ์ด ๋ฐ˜๋ณต๋˜๋Š” ๊ฒƒ์ด๋‹ค.

  • ๋งจ ์ฒ˜์Œ์—๋Š” target-decoy์—์„œ ํ™•์‹คํžˆ ์ ์ˆ˜๊ฐ€ ๋†’์€ ์• ๋“ค๋งŒ labeling์„ ํ•ด์ฃผ๊ณ , decoy๋Š” label์„ 0์œผ๋กœ ์ฃผ๊ณ  learning์„ ํ–ˆ๋‹ค. ์ดํ›„ ๋‘ ๋ฒˆ์งธ iteration๋ถ€ํ„ฐ๋Š” ์ € SVM training์˜ ๊ฒฐ๊ณผ๋กœ ์–ป์€ ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ FDR์„ ํ•ด์„œ ํ†ต๊ณผํ•œ ์• ๋“ค์€ label์ด 1์ด๊ณ , ํ†ต๊ณผํ•˜์ง€ ์•Š์€ ์• ๋“ค์€ unlabel๋กœ ๋ณธ๋‹ค. decoy๋Š” ๋Š˜ 0์œผ๋กœ ์ƒ๊ฐํ•˜๊ณ  ์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๋ชฉํ‘œ๋Š” ๊ฐ™์€ FDR์—์„œ๋ผ๋ฉด ์šฐ๋ฆฌ๊ฐ€ FDR์„ 1%๋กœ ํ•˜๊ฒ ๋‹ค, 5%๋กœ ํ•˜๊ฒ ๋‹ค ์ด๋ ‡๊ฒŒ ์ •ํ–ˆ์œผ๋ฉด, ๊ฐ™์€ FDR์—์„œ True Positive์— ํ•ด๋‹นํ•˜๋Š” ์• ๋“ค์€ ์ตœ๋Œ€ํ•œ ๋งŽ์ด ๋ฝ‘์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ ์ด๋ ‡๊ฒŒ iteration์„ ๋ฐ˜๋ณตํ•˜๋ฉด ๊ทธ๋ ‡๊ฒŒ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Features

ํ•™์Šต์„ ํ•  ๋•Œ ์ œ์ผ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๊ฒฐ๊ตญ feature๋ฅผ ์–ด๋–ป๊ฒŒ ์ •ํ•˜๋А๋ƒ ๊ทธ ๋‹ค์Œ์— data๋ฅผ ์–ด๋–ป๊ฒŒ ํ™•๋ณดํ•˜๋А๋ƒ์ด๋‹ค.

Untitled 3

Percolator๋Š” ๊ทธ๋ž˜์„œ search tool์— dependentํ•˜๊ฒŒ optimal feature set์„ ์ •์˜ํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ด์ œ ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋“ฏ์ด Mascot, Sequest, MS-GF+ ๋“ฑ ๊ฐ search tool์— ๋งž๋Š” feature๋ฅผ ์ด๋ ‡๊ฒŒ ๋”ฐ๋กœ ๋”ฐ๋กœ ์ •์˜ํ•˜๊ณ  ์žˆ๋‹ค.

Features: Percolator

Percolator๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” feature์˜ set๋“ค์€ ์•„๋ž˜์˜ ์‚ฌ์ง„์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์ž ๊น ์‚ดํŽด๋ณด๋ฉด, ์ด feature๋“ค์€ ์ด๊ฒƒ๊ณผ ๋น„์Šทํ•œ ๊ฐ’๋“ค์„ ์ ์ ˆํžˆ ๋‹ค๋ค„์•ผํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด์„œ ๋ณธ์ธ์ด Sequest๋กœ search๋ฅผ ํ–ˆ๋‹ค ๊ทธ๋Ÿฌ๋ฉด ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” Cross-correlation score(Xcorr)์™€ Delta CN (= Delta Xcorr(=1๋“ฑ๊ณผ 2๋“ฑ์— ํ•ด๋‹นํ•˜๋Š” peptide์˜ Xcorr ์ฐจ์ด)), SP score(Sequest๊ฐ€ ๋‚ด๋ถ€์ ์œผ๋กœ ์ดˆ๊ธฐ์— ์‚ฌ์šฉํ•˜๋Š”, candidate peptide๋ฅผ ํ•„ํ„ฐ๋งํ•˜๋Š” score), ๊ทธ ๊ฐ’์— log๋ฅผ ์ทจํ•œ ๊ฒƒ๋„ ์“ฐ๊ณ , mass, enzyme rule, ion fraction, #PSMs ๋“ฑ ๋‹ค์–‘ํ•œ feature๋“ค์„ ์‚ฌ์šฉํ•œ๋‹ค.

Untitled 4

์ด๊ฒƒ๋“ค ์ค‘ ์ „์ฒด๊ฐ€ ์ œ๊ณต๋˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ์ผ๋ถ€๊ฐ€ ์ œ๊ณต๋˜๋Š”๋ฐ percolator๋ผ๋Š” tool์ด ํ•˜๋Š” ์ผ์€ search engine์—์„œ ๋‚˜์˜จ ์—ฌ๋Ÿฌ๊ฐ€์ง€ score๋“ค๊ณผ search tool๊ณผ๋Š” ๋ณ„๋กœ ์ƒ๊ด€์ด ์—†๋Š” ๊ฐ’๋“ค๋„ ๋™์‹œ์— ๊ณ ๋ คํ•ด์„œ validationํ•˜๋Š” ํ•™์Šต์„ ํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 5

๋‹ค์‹œ ๋งํ•ด percolator๊ฐ€ ํ•˜๋Š” ์ผ์€ ๊ฒฐ๊ตญ ์ด๋Ÿฐ ๋‹ค์–‘ํ•œ feature๋“ค์˜ ์–ด๋–ค combined score๋ฅผ ํ•™์Šต์„ ํ†ตํ•ด์„œ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. SVMํ•™์Šต์„ ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์€ ์ด๋Ÿฐ feature๋“ค์€ ์–ด๋–ค weight๋ฅผ ์ ์ ˆํžˆ ์ฃผ๋ฉด label์— ๋”ฐ๋ผ์„œ ์ž˜ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋А๋ƒ ์ด๊ฑธ ์ฐพ๋Š” ๋ฌธ์ œ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ตญ์€ ์ด๋Ÿฐ feature๋ฅผ ์–ด๋–ป๊ฒŒ combineํ•ด์„œ decision boundary๋ฅผ ์ •ํ•  ๊ฑฐ๋ƒ ํ•˜๋Š” ๋ฌธ์ œ์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— combined score๋ฅผ ํ•™์Šตํ•˜๋Š” ์…ˆ์ด๋‹ค. ์ด๋Ÿฐ feature๋“ค์„ ์–ด๋–ป๊ฒŒ ์ž˜ ์กฐํ•ฉํ•˜๋ฉด ์ •๋ง ๋งž๋Š” ๊ฒƒ๊ณผ ํ‹€๋ฆฌ๋Š” ๊ฒƒ์„ ๋‚ด๊ฐ€ ์ž˜ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ์„๊นŒ ํ•˜๋Š” ๊ฑฐ๋ฅผ ์ฐพ์•„๊ฐ€๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

๋‹ค์Œ์œผ๋กœ ๋ณผ ๋‚ด์šฉ์€ percolator ์ž์ฒดํ•˜๊ณ ๋Š” ๋ณ„๋กœ ์ƒ๊ด€์ด ์—†์ง€๋งŒ feature engineering์„ ํ•  ๋•Œ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ์‚ฌํ•ญ๋“ค์— ๋Œ€ํ•ด ์ •๋ฆฌํ•ด ๋†“์€ ๊ฒƒ์ด๋‹ค.

Features: pre-processing

feature๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ์–ด๋–ค feature๋ฅผ ๊ณ ๋ฅผ ๊ฑฐ๋ƒ(์„ ํƒํ•  ๊ฑฐ๋ƒ)ํ•˜๋Š” ์ด์•ผ๊ธฐ๋ฅผ ํ•˜๊ธฐ ์ „์—, feature๋“ค์— ๋Œ€ํ•œ ์–ด๋–ค pre-processing์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์ด ์žˆ๋‹ค. ์•„๋ž˜์˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด Scaling, Clipping, Log scaling, Z-score ์ด๋Ÿฐ Normalization ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค๋„ ๊ฐ€๋Šฅํ•˜๊ณ , ๊ฐ’์ด ์—†์„ ๋•Œ ์–ด๋–ป๊ฒŒ ํ•  ๊ฒƒ์ด๋ƒ ํ•˜๋Š” Imputation๋„ ๊ณ ๋ คํ•  ๊ฒƒ ์ค‘์— ํ•˜๋‚˜์ด๋‹ค.

Untitled 6

๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๋ช…ํ•˜๋Š” ์˜ˆ์‹œ๋“ค์€ ๋‹ค pre-processing์˜ ๋ฐฉ๋ฒ•๋“ค์ด๋ฉฐ, ์ด๋Ÿฌํ•œ pre-processing์€ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค์ง€ ๊ผญ ํ•ด์•ผํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. (Not a have to, but it can do)

feature์˜ ์˜๋ฏธ๊ฐ€ ๋ฌด์—‡์ธ์ง€, ์ƒํ™ฉ์ด ์–ด๋– ํ•œ์ง€๋ฅผ ์ž˜ ๋ณด๊ณ  ๊ฑฐ๊ธฐ์— ๋งž๊ฒŒ ์ด๋Ÿฐ ์ผ๋“ค์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Scaling & Log tranform

scaling์€ ์˜ˆ๋ฅผ ๋“ค์–ด ์„ค๋ช…ํ•˜๋„๋ก ํ•˜๊ฒ ๋‹ค.

์–ด๋–ค feature๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ 1 ~ 10,000์ด๊ณ , ๋˜ ๋‹ค๋ฅธ feature๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ 0.5 ~ 0.7์ด๋‹ค๋ผ๊ณ  ํ•˜๋ฉด ๋‘๊ฐœ์˜ feature๋ฅผ ๊ทธ๋ƒฅ ์›๋ž˜์˜ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง„ raw data๊ฐ’์„ ๊ทธ๋ƒฅ ์“ฐ๋Š”๊ฒŒ ํ•™์Šต์„ ํ•  ๋•Œ ์–ด๋ ค์›€์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค.

์™œ๋ƒํ•˜๋ฉด feature๊ฐ€ scale์ด ์ „ํ˜€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ weight๋ฅผ ์ž˜ ๋งž์ถ”๋Š” ์ผ์ด ๋” ์–ด๋ ค์›Œ์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋ž˜์„œ ์ „์ฒด๋ฅผ normalizeํ•ด์„œ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์ด ๋˜๊ฒŒ ์ด๋ ‡๊ฒŒ scaleํ•ด์ฃผ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. (์š”์ฆ˜์€ tool์ด ์ž๋™์œผ๋กœ ์ด๋Ÿฐ scaling์„ ํ•ด์ฃผ๋Š” ๊ฒฝ์šฐ๋„ ๋งŽ์ด ์กด์žฌ)

Untitled 7

๊ทธ ๋‹ค์Œ ์ด๋ ‡๊ฒŒ scalingํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํžˆ ๊ทธ ํšจ๊ณผ๋ฅผ ์–ป๊ธฐ ์–ด๋ ค์šธ ์ˆ˜๊ฐ€ ์žˆ์–ด์„œ, ์™œ๋ƒํ•˜๋ฉด ๊ฐ’์˜ ๋ณ€ํ™”๊ฐ€ ๊ต‰์žฅํžˆ ํฐ feature๊ฐ€ ๊ฐ’์˜ ๋ณ€ํ™”๊ฐ€ ์ž‘์€ feature๋ฅผ ๊ทธ๋ƒฅ linearํ•˜๊ฒŒ scalingํ•˜๋Š” ๊ฒƒ์ด ์„œ๋กœ ์ด๋ ‡๊ฒŒ ์•ˆ ๋งž์„ ๋•Œ๊ฐ€ ๋งŽ์ด ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ ๊ต‰์žฅํžˆ ๊ฐ’์˜ ๋ณ€ํ™”๊ฐ€, ๋ฒ”์œ„๊ฐ€ ๊ต‰์žฅํžˆ ํฐ ๊ทธ๋Ÿฐ ์ข…๋ฅ˜์˜ feature๋“ค์€ log๋ฅผ ์ทจํ•œ ๋‹ค์Œ์— ๊ทธ๊ฑธ๋กœ scaling์„ ํ•˜๋Š” log transformation์ด ํ•„์š”ํ•  ๋•Œ๊ฐ€ ๋งŽ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ ‡๊ธฐ์— ์ƒํ™ฉ์— ๋”ฐ๋ผ์„œ๋Š”, log scaling๋„ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

Feature clipping

๋˜ ํ•˜๋‚˜ ๊ณ ๋ คํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” case๋Š” outliers๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ์ด๋‹ค. ๋Œ€์ฒด๋กœ ๋ชจ๋“  feature ๊ฐ’๋“ค์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์กด์žฌํ•˜๊ณ  ์—ฌ๊ธฐ์— ์•„์ฃผ 1, 2๊ฐœ์”ฉ ๊ต‰์žฅํžˆ ํฐ ๊ฐ’์„ ๊ฐ€์ง„ ์• ๋“ค์ด ์ด๋ ‡๊ฒŒ ๋‚˜์˜ค๋Š” ๋ถ„ํฌ๊ฐ€ ์žˆ์„ ๋•Œ, ์ด๊ฑฐ ์ „์ฒด๋ฅผ ๋†“๊ณ  scalingํ•˜๋Š” ๊ฒŒ ๋ฐ”๋žŒ์งํ•˜๋ƒ๊ณ  ์งˆ๋ฌธ์„ ๋˜์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ทธ๋ ‡์ง€ ์•Š๋‹ค ์ด ๋ง์ด๋‹ค.

outlier์— ํ•ด๋‹นํ•˜๋Š” ์• ๋“ค์€ ๊ทธ๋ƒฅ ๋ฒ„๋ฆฌ๊ณ (noise๋ผ๊ณ  ํŒ๋‹จํ•˜๊ณ ), ๋‚˜๋จธ์ง€๋งŒ ๊ฐ€์ง€๊ณ  ์šฐ๋ฆฌ๊ฐ€ data๋ฅผ ์“ฐ๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 8

๋ฌด์—‡์ด outlier๋ƒ ๋ฌด์—‡์ด noise๋ƒ ํ•˜๋Š” ๊ฒƒ๋„ data์— ๋”ฐ๋ผ ๋‹ค ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ ์ด์•ผ๊ธฐํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šด ์ผ์ด๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— data๋ฅผ ๋‹ค๋ฃจ๋ฉด์„œ ๊ทธ ์˜๋ฏธ๋ฅผ ์ž˜ ์ดํ•ดํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. outlier๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ๊ต‰์žฅํžˆ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ๋•Œ ๊ทธ๋•Œ ๋‹ค ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๊ธฐ์„œ๋Š” ์ž์„ธํžˆ ๋‹ค๋ฃจ๊ธฐ๋Š” ์–ด๋ ต๊ณ , ๊ทธ๋Ÿฐ ์ ๋“ค์ด ์žˆ๋‹ค ์ •๋„๋กœ๋งŒ ์ดํ•ดํ•˜์ž.

Z-score

Normal ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, ๋‹ค์–‘ํ•œ score๋ฅผ ํ‘œ์‹œํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋Š” ์•„๋ž˜์˜ ํ‘œ๋ฅผ ํ†ตํ•ด ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค.

Untitled 9

Normal ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, ํ‰๊ท (mean)์— ํ•ด๋‹นํ•˜๋Š” ์œ„์น˜๋ฅผ Z-score 0์œผ๋กœ ๋ณด๊ณ , 1ฯƒ,2ฯƒ,3ฯƒ1\sigma, 2\sigma, 3\sigma๋ฅผ ๊ฐ๊ฐ 1, 2, 3์œผ๋กœ ํ‘œ์‹œํ•˜์—ฌ ๊ฐ๊ฐ์˜ ๋ถ„ํฌ์—์„œ ์–ด๋””์ฏค ์œ„์น˜ํ•˜๊ณ  ์žˆ๋А๋ƒ ํ•˜๋Š” ๊ฒƒ์ด Z-score๊ฐ€ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์ด๋‹ค. (์ผ์ข…์˜ normalization ํ•˜๋Š” ๋ฐฉ๋ฒ•)

Imputation

imputation์€ ๊ฐ’์ด ์—†๋Š”, ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ data์— ๋”ฐ๋ผ์„œ๋Š” ํŠน์ •ํ•œ feature๋Š” ๊ฐ’์„ ์ •ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿด ๊ฒฝ์šฐ์— ์–ด๋–ป๊ฒŒ ํ•  ๊ฒƒ์ด๋ƒ ํ•˜๋Š” issue.

์ด์ œ ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ ํ•˜๋‚˜์˜ feature๋ผ๋„ ๊ฐ’์ด ์—†๋Š” data๋Š” ๊ทธ๋ƒฅ ๋ฒ„๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ๋ชจ๋“ , ๊ฐ’์ด ๋‹ค ์žˆ๋Š” ์• ๋งŒ ํ•™์Šต์— ์‚ฌ์šฉํ•˜๊ณ  ๊ทธ๋ ‡์ง€ ์•Š๋Š” ์• ๋Š” ๊ทธ๋ƒฅ ๋‹ค ๋ฒ„๋ฆด ์ˆ˜ ์žˆ์œผ๋ฉด ๊ทธ๋‚˜๋งˆ ํ–‰๋ณตํ•œ ์ƒํ™ฉ์ด๋‹ค. data๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋งŽ์•„์„œ, ๋ฒ„๋ฆฌ๊ณ ๋„ ํ•™์Šต์„ ํ•  ์ˆ˜๊ฐ€ ์žˆ์œผ๋ฉด ๋‹คํ–‰์ธ๋ฐ, imputation์„ ๊ณ ๋ฏผํ•˜๋Š” ์ด์œ ๋Š” data๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿด ๋•Œ ์ด์ œ ์–ด๋–ป๊ฒŒ ํ•  ๊ฑฐ๋ƒ์˜ ๋ฌธ์ œ์ด๊ณ , ๊ฐ’์ด ์—†์„ ๋•Œ ์–ด๋–ค ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•  ๊ฑฐ๋ƒ ํ•˜๋Š”๊ฒŒ imputation์˜ issue์ด๋‹ค.

Untitled 10

๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ฒŒ๋Š” Mean, median mode ์ด๋Ÿฐ ์‹์œผ๋กœ ์ „์ฒด ๋ถ„ํฌ์—์„œ ํ‰๊ท  ์ค‘๊ฐ„๊ฐ’ ํ˜น์€ ์ตœ๋นˆ๊ฐ’(๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์˜ค๋Š” ๊ฐ’), ์ด๋Ÿฐ ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ œ์ผ ๊ทธ๋ž˜๋„ ๊ทธ๋Ÿด ๋“ฏ ํ•˜๋‹ˆ๊นŒ ์ด๋ ‡๊ฒŒ ํ•˜๊ณ  ๋„˜์–ด๊ฐ€๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ๋‹ค.

๊ทธ ๋‹ค์Œ์— ์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ๊ฐ’์ด ๋‹ค๋ฅธ ๊ฐ’ํ•˜๊ณ  ์–ด๋–ค correlation์ด ์žˆ๋Š”๊ฐ€ ํ•˜๋Š” ๊ฒƒ์„ ์šฐ๋ฆฌ๊ฐ€ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋ฉด, (์ ˆ๋Œ€๋กœ ๊ทธ๋ ‡์ง€๋Š” ์•Š์ง€๋งŒ, ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ๋ฌธ์ œ์—์„œ peptide์˜ ๊ธธ์ด๊ฐ€ ์งˆ๋Ÿ‰ํ•˜๊ณ  correlation์ด ์žˆ๋‹ค๋ฉด, ํ˜น์€ ์งˆ๋Ÿ‰์ด chargeํ•˜๊ณ  ์ผ์ • ์ •๋„ correlation์ด ์žˆ๋‹ค๋ฉด,) ๊ทธ๋Ÿผ ์ด์ œ ๊ทธ ์ค‘ ์–ด๋–ค ๊ฐ’์ด ์—†๋‹ค๊ณ  ํ•  ๋•Œ ๊ทธ ๊ฐ’์„ ๊ทธ correlation์„ ๋ณด๊ณ  ์ ๋‹นํ•œ ๊ฐ’์„ ์ฑ„์›Œ๋„ฃ๋Š” ์ด๋Ÿฐ ์ผ์„ ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ missing value์™€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜ ์‚ฌ์ด์— correlation์ด ์žˆ๋‹ค๊ณ  ํ•˜๋ฉด ๊ทธ๋ ‡๊ฒŒ regression์„ ํ•ด์„œ missing value์— ์ ์ ˆํ•œ ๊ฐ’์„ ๋„ฃ์„ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ ๋‹ค์Œ์— KNN(K-nearset neighbor)๋ฅผ ์ด์šฉํ•œ imputation๋„ ๊ฐ€๋Šฅํ•˜๋‹ค. ์—ฌ๊ธฐ์„œ ์ด์ œ nearest neighbor๋ฅผ ๋ฌด์—‡์œผ๋กœ ์ •์˜ํ•  ๊ฒƒ์ด๋ƒ๊ฐ€ ๋ฌผ๋ก  issue๊ฐ€ ๋˜๊ฒ ์ง€๋งŒ, ๋‚˜ํ•˜๊ณ  ์ œ์ผ ๋น„์Šทํ•œ data๋ฅผ ์ฐพ์•„์„œ ๊ฑ”๊ฐ€ ๊ฐ€์ง„ ๊ทธ ๊ฐ’์„ ๋‚˜๋„ ๊ทธ๋ƒฅ ๊ฐ€์ ธ์˜ค๋Š” ๋ฐฉ๋ฒ•์ด ๋  ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ๋‚˜๋ž‘ ๋น„์Šทํ•œ ์• ๋“ค k๊ฐœ๋ฅผ ๋ฝ‘์•„์„œ ๊ทธ ์ค‘ ๊ฐ€์žฅ ํ”ํžˆ ๊ด€์ฐฐ๋œ ๊ฐ’์„ ํ•˜๋‚˜์— ์“ด๋‹ค๋˜๊ฐ€?! (discreteํ•œ ๊ฒฝ์šฐ) mean์ด๋‚˜ mode๋ฅผ ์‚ฌ์šฉ ํ•œ๋‹ค๋˜๊ฐ€?! (continuousํ•œ ๊ฒฝ์šฐ)

์ด๋Ÿฐ ๊ฒƒ์€ ์ด์ œ feature๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๊ทธ feature๋“ค์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•  ๊ฑฐ๋ƒ ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค. ๊ทธ ์ „์— ์ด์ œ feature๋ฅผ ๋ฌด์—‡์„ ์‚ฌ์šฉํ• ๊ฑฐ๋ƒ ํ•˜๋Š” issue๊ฐ€ ์žˆ๋‹ค.

Features: feature engineering

Feature engineering์˜ ๋ฌธ์ œ๋Š” ํฌ๊ฒŒ 2๊ฐ€์ง€๋กœ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

  • feature extraction
  • feature selection

๊ธฐ๋ณธ์ ์œผ๋กœ feature engineering์„ ํ•˜๋Š” ๊ฑฐ๋Š” ๊ทธ feature๋“ค์„ ๋‹ค์‹œ ์žฌ์กฐํ•ฉํ•ด์„œ, ๋‹ค์‹œ ์ž˜ transformํ•ด์„œ ์ƒˆ๋กœ์šด feature๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์„ ๋งํ•œ๋‹ค.

Untitled 11

Features: feature selection

์•ž์„œ ์ด์•ผ๊ธฐํ•œ ๊ฒƒ์ฒ˜๋Ÿผ combined score๋ฅผ ๋งŒ๋“ ๋‹ค๋˜์ง€, ์ด๋Ÿฐ๊ฒŒ ์ด์ œ feature selection์— ํ•ด๋‹นํ•œ๋‹ค. ์ฃผ์–ด์ง€๋Š” feature set์—์„œ ์–ด๋А ๊ฒƒ์„ ์“ฐ๊ณ  ์–ด๋А ๊ฒƒ์„ ์•ˆ ์“ธ ๊ฒƒ์ธ์ง€๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฌธ์ œ๋Š” feature selection์˜ ์ผ์ข…์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

feature selection ์ž์ฒด๋กœ๋„ ํ•˜๋‚˜์˜ ์—ฐ๊ตฌ ๋ถ„์•ผ์ด๋ฉฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ๋˜ ๋‹ค ๊ตฌํ˜„๋˜์–ด ์žˆ๋‹ค. ๊ทธ๋Ÿฐ ๊ฒƒ์„ ์ž˜ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ๋„ ์ข‹์€ ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์€ ํ•˜๋‚˜์”ฉ ํ•˜๋‚˜์”ฉ ๋„ฃ์–ด๋ณด๊ฑฐ๋‚˜ ํ•˜๋‚˜์”ฉ ํ•˜๋‚˜์”ฉ ๋นผ๋ณด๋Š” stepwise feature selection์ด๋‹ค.

Untitled 12

์‚ฌ์‹ค์€ n๊ฐœ์˜ feature๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ, n๊ฐœ์˜ feature๋ฅผ ์กฐํ•ฉํ•ด์„œ ๊ทธ์ค‘์— ์–ด๋–ค ๊ฑธ ์“ธ๊นŒ๋ฅผ ์ •ํ•˜๋Š” ๋ฌธ์ œ๋Š” ๋ชจ๋“  subset์„ ๋‹ค try ํ•ด๋ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿผ 2n2^n๊ฐœ๋ฅผ ๋‹ค ์‹œ๋„ํ•ด๋ด์•ผ ํ•˜๋Š”๋ฐ ์‚ฌ๋žŒ์ด๋‹ค๋ณด๋‹ˆ ๊ทธ๋Ÿด ์ˆ˜๋Š” ์—†๋‹ค. ๊ทธ๋ž˜์„œ 2n2^n๊ฐœ์˜ ๋ฌธ์ œ์ง€๋งŒ ์ด๋ ‡๊ฒŒ ํ•˜๋‚˜์”ฉ ํ•˜๋‚˜์”ฉ ๋„ฃ์–ด๋ณด๊ฑฐ๋‚˜ ๋นผ๋ณด๋Š” ๊ฑฐ๋Š” n์— ๋น„๋ก€ํ•œ ๋ฌธ์ œ๋กœ ๋ฐ”๊ฟ”์น˜๊ธฐ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ƒฅ ๋‹จ์ˆœํ™”์‹œ์ผœ์„œ 2n2^n๊ณผ๋Š” ๋น„๊ตํ•  ์ˆ˜ ์—†์ด ์ž‘์€ ์‹œ๋„์ด์ง€๋งŒ ์ด๋Ÿฐ ์ •๋„๋กœ ๋‚ด๊ฐ€ ๋ ํ•˜๊ฒ ๋‹ค ํ•˜๋Š” ํ•˜๋‚˜์˜ ๋‹จ์ˆœํ™”๋œ ๋ฐฉ๋ฒ•์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์ด filter ๋ฐฉ๋ฒ•์— ํ•ด๋‹นํ•œ๋‹ค.

Untitled 13

ํ•™์Šตํ•˜๊ณ  ๋…๋ฆฝ์ ์œผ๋กœ ํ•˜๋Š” ๊ฒŒ ์ง€๊ธˆ ์ด์•ผ๊ธฐํ•œ filter ๋ฐฉ๋ฒ•์ด๊ณ , ๋ฏธ๋ฆฌ ๋‹ค feature๋ฅผ ๊ณจ๋ผ๋†“์€ ๋‹ค์Œ์— ์„ ํƒ๋œ feature๋งŒ ๊ฐ€์ง€๊ณ  ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

feature selection ์ž์ฒด๋ฅผ ํ•™์Šต์ด๋ž‘ ์—ฐ๊ฒฐ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•๋“ค๋„ ์žˆ๋‹ค. ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ๋งˆ๋ฆ„๋ชจ๊ผด๋กœ MODEL์ด๋ผ๊ณ  ํ•œ๊ฒŒ ํ•™์Šตํ•˜๋Š” ๋ถ€๋ถ„์„ ์˜๋ฏธํ•˜๋Š”๋ฐ ํ•™์Šตํ•˜๋ฉด์„œ feature selection์ด ๊ฐ™์ด ๋˜๊ฒŒ ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค๋„ ๋‹ค์–‘ํ•˜๊ฒŒ ์กด์žฌํ•œ๋‹ค.

๊ทธ ๋‹ค์Œ์—, iterativeํ•˜๊ฒŒ ํ•™์Šตํ•˜๋ฉด์„œ ๊ทธ ํ•™์Šต set์—์„œ ์˜๋ฏธ์žˆ๋Š” feature๋“ค์„ ์ž˜ ๊ณจ๋ผ๋‚ด๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋Š”๋ฐ, ์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด wrapper๋‚˜ embeddingํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์€ data์— ๋งค์šฐ dependentํ•ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” feature ์ž์ฒด๋ฅผ ํ•™์Šต๊ณผ ์—ฐ๊ณ„ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์•ฝ๊ฐ„์˜ ์œ„ํ—˜์„ฑ์ด ์žˆ๊ธฐ๋Š” ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์ž˜ ํŒ๋‹จํ•ด์•ผ ํ•œ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๊ณ  ๋ฌด์Šจ ์ง“์„ ํ•ด๋„ over-fitting์ด ์•ˆ ๋  ์ƒํ™ฉ์ด๋‹ค๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์ด๋ ‡๊ฒŒ ํ•ด๋ณผ ๋งŒ ํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š๊ณ  ํ•™์Šต์˜ data๊ฐ€ ๊ต‰์žฅํžˆ minimalํ•œ๋ฐ ์ด๋Ÿฐ ํ•™์Šตํ•˜๊ณ  feature selection์„ ์—ฐ๊ฒฐ์‹œ์ผœ ๋†“์œผ๋ฉด ๊ทธ data์—๋Š” ์ž˜ ๋™์ž‘ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ data์—์„œ๋Š” ๊ต‰์žฅํžˆ ์ด์ƒํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š” ๊ทธ๋Ÿฐ ๊ฒƒ๋“ค์„ ๋งŒ๋“ค ๊ฐ€๋Šฅ์„ฑ์ด ๋งŽ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์šฐ๋ฆฌ๊ฐ€ feature selection์„ ํ•  ๋•Œ๋„ ๊ทธ๋ ‡๊ณ  ์‚ฌ์‹ค์€ model์„ selection ํ•  ๋•Œ๋„ ๋ฐ˜๋“œ์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•  ๊ฒƒ์ธ๋ฐ, Bias์™€ Variance ์‚ฌ์ด์— trade-off๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 14

bias๋Š” ํ•™์Šต ๋ชจ๋ธ์ด๋‚˜ feature set ์ž์ฒด๊ฐ€ ์–ด๋–ค ์›์ฒœ์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์–ด์„œ ๊ฑฐ๊ธฐ์„œ ์˜ค๋Š” ์–ด๋– ํ•œ error๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์ด์•ผ๊ธฐํ•ด๋ณด์ž. ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ํšŒ์ƒ‰์œผ๋กœ ํ‘œ์‹œ๋œ point๋“ค์ด data point๋ฅผ ์˜๋ฏธํ•˜๊ณ , 10๊ฐœ๊ฐ€ ํ‘œ์‹œ๋˜์–ด ์žˆ๋‹ค. ์ด ์นœ๊ตฌ๋“ค์„ ํ•™์Šตํ•ด์„œ ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•˜๊ณ  ์‹ถ์€ ๊ฒƒ์ด๋ฉฐ, ์ด๋–„ ํ‘œ์‹œ๋œ ์ ์„ ์€ ์‹ค์ œ ํ•จ์ˆ˜ ๊ด€๊ณ„๊ฐ€ ๋‘˜ ์‚ฌ์ด, x์™€ y ์‚ฌ์ด์— 3์ฐจ์‹์ฏค์œผ๋กœ, ์ด๋Ÿฐ polynomial์— ํ•ด๋‹นํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์™œ ์ด ์ ์„ ๊ณผ ์–ด๊ธ‹๋‚œ ์œ„์น˜์˜ data๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ๋ƒ ํ•˜๋ฉด ์ธก์ •ํ•˜๋Š” ๊ธฐ๊ธฐ์— ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด์„œ ์ผ์ • ์ •๋„ ๋ฒ—์–ด๋‚˜๊ฒŒ ๊ด€์ฐฐ๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.(์ผ๋ถ€๋Š” ๋งŽ์ด ๋ฒ—์–ด๋‚˜๊ณ  ๋˜ ์ผ๋ถ€๋Š” ์‚ด์ง ๋ฒ—์–ด๋‚˜๊ณ  ์ด๋ ‡๋‹ค.) ์ด๋ ‡๊ฒŒ ๊ด€์ฐฐ๋œ data point๊ฐ€ ์žˆ๊ณ  ์‹ค์ œ๋กœ๋Š” ์ด ์ ์„ ์— ํ•ด๋‹นํ•˜๋Š” ํ•จ์ˆ˜ ๊ด€๊ณ„๊ฐ€ ์žˆ์ง€๋งŒ ์šฐ๋ฆฌ๋Š” data point๋งŒ ๋ณด๊ณ  ์–ด๋–ค ํ•จ์ˆ˜๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ์ฐพ์•„์•ผํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฐ ๊ฒฝ์šฐ์— ๋นจ๊ฐ„์ƒ‰์ฒ˜๋Ÿผ ์ง์„ ์œผ๋กœ modelingํ•  ๊ฒƒ์ด๋ƒ ํ˜น์€ ํŒŒ๋ž€์ƒ‰์ฒ˜๋Ÿผ 3์ฐจ์‹์œผ๋กœ modelingํ•  ๊ฒƒ์ด๋ƒ, ์ดˆ๋ก์ƒ‰์€ 9์ฐจ์‹์œผ๋กœ modelingํ•  ๊ฒƒ์ด๋ƒ์— ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๊ฐ€ ๋ฐ›์•„๋“ค์ด๋Š” ์ข…๋ฅ˜์˜ error๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ์™ผ์ชฝ์€ bias๊ฐ€ ๊ต‰์žฅํžˆ ํฐ ๊ฒฝ์šฐ๋กœ, model ์ž์ฒด๊ฐ€ ํ•œ๊ณ„๊ฐ€ ์žˆ์–ด์„œ ์•„๋ฌด๋ฆฌ data point๋ฅผ ๋” ๋งŽ์ด ๊ฐ€์ ธ๋‹ค ์ฃผ์–ด๋„ error๊ฐ€ ์ค„์–ด๋“ค๊ธฐ ์–ด๋ ค์šด ์ƒํ™ฉ์ธ ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋Œ€๋กœ variance๋Š” ์ดˆ๋ก์ƒ‰๊ณผ ๊ฐ™์ด data point๊ฐ€ 10๊ฐœ๋ฐ–์— ์•ˆ๋˜๋Š”๋ฐ 9์ฐจ์‹์„ ๊ฐ€์ง€๊ณ  modeling์„ ํ•˜์˜€์œผ๋‹ˆ 100% ๋งž์ถœ ์ˆ˜ ์žˆ์ง€๋งŒ, ์—ฌ๊ธฐ์— ๋งŒ์•ฝ data point๊ฐ€ ์ถ”๊ฐ€๋˜๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ์ „ํ˜€ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. data์— ๋”ฐ๋ผ์„œ data๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋ฐ”๊ฟ”์–ด๋„ ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋‚˜์˜ค๋Š” model์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋งŽ์ด ๋‹ฌ๋ผ์ง€๋Š” error๊ฐ€ ์žˆ๋‹ค ํ•˜๋Š” ๊ฒƒ์„ variance๋ผ๊ณ  ํ•œ๋‹ค.

์ด bias์™€ variances๋Š” ์„œ๋กœ trade-off๊ฐ€ ์žˆ๋Š”๋ฐ, bias๊ฐ€ ์ปค์ง€๋ฉด variance๊ฐ€ ์ž‘๊ณ , variance๊ฐ€ ์ปค์ง€๋ฉด bias๊ฐ€ ์ž‘์•„์ง€๋Š”, ์ด 2๊ฐœ๋ฅผ ๊ฒฐ๊ตญ ํ•ฉํ•œ ๊ฒƒ์ด ๊ฒฐ๊ตญ ์ „์ฒด error๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๊ฒŒ ์ด ๋‘˜ ๋‹ค ์ ์ ˆํžˆ control ๋˜๋Š” ์ˆ˜์ค€์ด ์–ด๋””๋ƒ๋ฅผ ์ฐพ๋Š” ๊ฒŒ ์ข‹์€ ํ•™์Šต์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

Untitled 15

์œ„์˜ ์‚ฌ์ง„์˜ ๊ฐ€์šด๋ฐ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ bias๋„ ์ ์ ˆํžˆ controlํ•˜๊ณ , variance๋„ ์ ๋‹นํžˆ controlํ•ด์„œ ๊ฐ€์žฅ ์ ์ ˆํ•œ ์œ„์น˜๊ฐ€ ์–ด๋””๋ƒ๋ฅผ ์ฐพ๋Š” ๋ฌธ์ œ๊ฐ€ ๊ฒฐ๊ตญ์€ ํ•™์Šต์„ ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ์ž˜ํ•˜๊ฒŒ ํ• ๊ฑฐ๋ƒ์ธ๋ฐ, ์™œ ์ด๋Ÿฌํ•œ ์ด์•ผ๊ธฐ๋ฅผ feature selection์„ ์ด์•ผ๊ธฐํ•˜๋‹ค ๋ง๊ณ  ํ•˜๋ƒ๋ฉด, feature๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ํ•„์š”ํ•œ ๊ฒƒ๋ณด๋‹ค ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด bias๊ฐ€ ํฐ ์ƒํ™ฉ์ด ๋˜๊ณ , ๋ฐ˜๋Œ€๋กœ ์ง€๋‚˜์น˜๊ฒŒ ๋งŽ์œผ๋ฉด variance๊ฐ€ ํฐ ์ƒํ™ฉ์ด ๋œ๋‹ค.

x๋Š” ๋™์ผํ•œ๋ฐ degree๊ฐ€ ํฌ๋‹ˆ๊นŒ model์ด ๋‹ค๋ฅธ๊ฒƒ์ด๊ณ , ๊ทธ๋ ‡์ง€ ์•Š๊ณ  model์€ ๋˜‘๊ฐ™์ด linear model์ด๋ผ๊ณ  ํ•ด๋„ feature๊ฐ€ x1๋ถ€ํ„ฐ x10๊นŒ์ง€ ์ฃผ์–ด ์กŒ๋А๋ƒ, x1๋ถ€ํ„ฐ x3๊นŒ์ง€ ์ฃผ์–ด์กŒ๋А๋ƒ์— ๋”ฐ๋ผ์„œ๋„ bias์™€ variance๊ฐ€ ์™”๋‹ค๊ฐ”๋‹ค ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ์ด ๋‘˜ ์‚ฌ์ด์— trade-off๊ฐ€ ์žˆ๊ณ , ์ด trade-off๋Š” model๊ณผ feature ๋‘˜ ๋‹ค ์ ์šฉ๋˜๋Š” ์ด์•ผ๊ธฐ์ด๋‹ค. ๊ทธ๋ž˜์„œ feature๋ฅผ ์ ์ ˆํžˆ ์ž˜ ๊ณ ๋ฅด๋Š” ๊ฒƒ์ด, ์ด bias์™€ variance๋ฅผ ์ ์ ˆํžˆ control ํ•˜๋Š” ๊ฒŒ ๊ต‰์žฅํžˆ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด, ์“ธ ๋ฐ ์—†๋Š” feature๋ฅผ ๊ต‰์žฅํžˆ ๋งŽ์ด ๊ฐ–๊ณ ์˜ค๋ฉด ํ•™์Šต์ด ์ž˜ ๋˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ ์ด๋Ÿฐ ์ƒํ™ฉ์„ ๋งŒ๋“ค๊ณ  ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋งŽ์ด ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— feature๋ฅผ ์–ด๋–ป๊ฒŒ ์ž˜ ๊ณ ๋ฅด๋ƒ ํ•˜๋Š”๊ฒŒ, ๋˜ ์ „์ฒด error๋Š” ๊ฒฐ๊ตญ ์ด ๋‘˜์˜ ํ•ฉ์— ํ•ด๋‹นํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ ์ ˆํžˆ controlํ•ด์„œ ์ด ์ค‘๊ฐ„ ์ง€์ ์„ ์ฐพ๋Š”๊ฒŒ ๊ต‰์žฅํžˆ ์ค‘์š”ํ•œ ๊ฒƒ์ด๋‹ค.

๊ทธ๋ž˜์„œ ์ด์ œ ์•ž์„œ ์ด์•ผ๊ธฐ ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ stepwise๋กœ ํ•˜๋‚˜์”ฉ ๋„ฃ๋˜์ง€, ํ•˜๋‚˜์”ฉ ๋นผ๋“ ์ง€ ํ•˜๋ฉด์„œ feature๋ฅผ ๊ณจ๋ผ์•ผ ํ•˜๋Š”๋ฐ ์–ธ์ œ ๊ทธ๋Ÿฌ๋ฉด feature๋ฅผ ๊ณ ๋ฅด๋Š” ๊ฒƒ์„ ๋ฉˆ์ถœ ๊ฒƒ์ด๋ƒ ํ•˜๋Š” ๊ฒƒ์ด ๋˜๋‹ค๋ฅธ ๊ณ ๋ฏผ์ผ ๊ฒƒ์ด๋‹ค. ์–ธ์ œ๊นŒ์ง€ ๋„ฃ์–ด์•ผ ์ข‹์€ ๊ฑด์ง€, ์–ด๋””๊นŒ์ง€ ๋นผ๋ฉด ์ด์ œ ๋” ์ด์ƒ ๋นผ์ง€ ์•Š๋Š” ๊ฒŒ ์ข‹๋‹ค๊ณ  ํŒ๋‹จํ•˜๋Š” ๊ฑด์ง€ ๊ทธ๋Ÿฐ ์–ด๋–ค ๊ธฐ์ค€์ด ๋˜๋Š” matric๋“ค์ด ์žˆ๋‹ค. ์ด๋•Œ ์•„๋ž˜์— ์žˆ๋Š” matric๋“ค์ด ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค.

Untitled 16

์—ฌ๊ธฐ์„œ p๋Š” feature์˜ ๊ฐฏ์ˆ˜์ด๋ฉฐ, ์œ„ ๊ทธ๋ฆผ์—์„œ๋Š” model parameter๋ผ๊ณ  p๋ฅผ ์ด์•ผ๊ธฐํ–ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ๋Š” feature์˜ ๊ฐฏ์ˆ˜๋ฅผ ์ด์•ผ๊ธฐ ํ•˜๋ฉฐ, ๊ทธ ๋‹ค์Œ์—๋Š” ์ฃผ์–ด์ง„ ์• ๋Š” ๋˜‘๊ฐ™์ด ์ฃผ์–ด์ ธ ์žˆ์œผ๋‹ˆ๊นŒ ํ•™์Šต data๋Š” ๊ณ ์ •์ด ๋œ ๊ฒƒ์ด๋‹ค. ์ด๋•Œ feature์˜ ๊ฐฏ์ˆ˜๋ฅผ ๋ฌด์—‡์œผ๋กœ ํ•  ๋•Œ๊ฐ€ ์ „์ฒด์ ์œผ๋กœ ๊ฐ€์žฅ ๋ฐ”๋žŒ์งํ•œ๊ฐ€ ํ•˜๋Š” ๊ฒƒ๋“ค์„ ์ด๋Ÿฐ ์‹์œผ๋กœ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ์ œ์•ˆํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๊ณ , ์šฐ๋ฆฌ๊ฐ€ ์ฐธ๊ณ ํ•ด ๋ณผ ๋งŒํ•œ matric์ด๋‹ค ๋ผ๋Š” ์ •๋„๋งŒ ์ด์•ผ๊ธฐํ•˜๋ฉด ๋  ๊ฒƒ ๊ฐ™๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” tool์•ˆ์— ์ด๋Ÿฐ ๊ฒƒ๋“ค๋„ ๋‹ค ๊ตฌํ˜„๋˜์–ด ์žˆ์œผ๋ฉฐ, feature selectionํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋Œ๋ฆด ๋•Œ ์ด๋Ÿฐ parameter๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋œ๋‹ค.

Features: feature extraction

feature์— ๊ด€ํ•ด์„œ ๋งˆ์ง€๋ง‰์œผ๋กœ ํ•  ์ด์•ผ๊ธฐ๋Š” feature extraction์ด๋‹ค. ๊ฒฐ๊ตญ์€ ์ฃผ์–ด์ง„ data๋ฅผ ์„ค๋ช…ํ•˜๋Š” ์ƒˆ๋กœ์šด dimension์„ ์ฐพ๋Š” ์…ˆ์ด๋‹ค. ์ด dimension์„ ์ฐพ์„ ๋•Œ PCA๋Š” ์ด๋ ‡๊ฒŒ variance๊ฐ€ ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ์œผ๋กœ dimension์„ ์ฐพ๋Š”๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๊ทธ๋ž˜์•ผ ๊ทธ dimension์—์„œ ๊ฐ€์žฅ ๋งŽ์€ data๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋ž˜์„œ PCA๊ฐ€ ํ•˜๊ณ  ์‹ถ์€ ์ผ์€ ์ž๊ธฐ ํ•˜๋‚˜ ๊ฐ€์ง€๊ณ (์ฒซ๋ฒˆ์งธ component๋ผ๊ณ  ํ•˜๋ฉด) ๊ทธ๊ฑธ๋กœ ์–ด๋–ป๊ฒŒ ๊ฐ€์žฅ ๋งŽ์€ data๋ฅผ ์ž˜ ์„ค๋ช…ํ•  ๊ฑฐ๋ƒ, ์–˜ํ•˜๊ณ  ์–˜ํ•˜๊ณ  ์™œ ๋‹ค๋ฅธ์ง€, ์ด๊ฒŒ data point๊ฐ€ ๋‹ค ๋‹ค๋ฅธ ๊ฒƒ์„ ์„ค๋ช…ํ•ด์•ผ ๋˜๊ธฐ ๋•Œ๋ฌธ์— variance๊ฐ€ ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๊ฑธ ์ฐพ๋Š” ์ผ์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 17

์ด๋ ‡๊ฒŒ ํ•˜๋Š” ๊ฑฐ๋Š” ์ด์ œ data๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์ž…์žฅ์ด๊ณ , ๊ทธ๋ ‡์ง€ ์•Š๊ณ  ๋งŒ์•ฝ classification์„ ํ•œ๋‹ค ๊ทธ๋Ÿฌ๋ฉด ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด data๋ฅผ ์ด ์ชฝ dimension์œผ๋กœ ํ‘œํ˜„ํ•  ๊ฒƒ์ด๋ƒ ๋‹ค๋ฅธ ์ชฝ dimension์œผ๋กœ ํ‘œํ˜„ํ• ๊ฑฐ๋ƒ ๋ผ๊ณ  ํ•  ๋•Œ ๋‹น์—ฐํžˆ LD 1 dimension์œผ๋กœ ํ‘œํ˜„ํ•ด์•ผ classifyํ•˜๊ณ ์ž ํ•˜๋Š” ๋‘ ๊ทธ๋ฃน์ด ๋ช…๋ฐฑํžˆ ๋‚˜๋‰  ๊ฒƒ์ด๋‹ค.

Untitled 18

๊ทธ๋ž˜์„œ ์ด LDA๋„ PCA์˜ ์ผ์ข…์ด์ง€๋งŒ ์–˜๋Š” variance๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ถ•์„ ์ฐพ๋Š”๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ๊ฐ๊ฐ์˜ data์— ํ•ด๋‹นํ•˜๋Š” ์ด ๊ทธ๋ฃน์˜ variance๊ฐ€ ๊ฐ€์žฅ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ฐพ๊ธฐ ๋•Œ๋ฌธ์— classification ๋ฌธ์ œ๋ฅผ ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃจ๊ณ ์ž ํ•  ๋•Œ๋Š” ์ด๋Ÿฐ LDA ๊ฐ™์€ ๊ฒƒ์„ ์“ฐ๋Š”๊ฒŒ ํ•„์š”ํ•˜๋‹ค๊ณ  ๋งํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ๋งŒ ๋ณด์•„๋„ ๋ช…๋ฐฑํžˆ ์™œ ๊ทธ๋Ÿฐ ์ผ์„ ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

Untitled 19

๊ธฐ์ˆ ์ ์œผ๋กœ๋Š” LDA๋‚˜ PCA๋‚˜ ๋‹ค๋ฅผ ๊ฒŒ ์—†์ง€๋งŒ ์–ด๋–ค ์ƒˆ๋กœ์šด dimension์˜ feature์˜ ์กฐํ•ฉ์„ ์ฐพ๋Š” ์…ˆ์ธ๊ฑด๋ฐ ๊ทธ feature์˜ ์กฐํ•ฉ์„ ์–ด๋–ค ๋ชฉ์ ์œผ๋กœ ์ฐพ๋А๋ƒ, ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ฐพ๋А๋ƒ ์•„๋‹ˆ๋ฉด classification์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ฐพ๋Š” ๊ฑฐ๋ƒ์— ๋”ฐ๋ผ์„œ ์ฐพ๋Š” ๊ฒƒ์˜ ๋ฐฉํ–ฅ์ด ์•ฝ๊ฐ„ ๋‹ค๋ฅผ ๋ฟ์ด๊ณ , ํ•˜๊ณ  ์žˆ๋Š” ์ผ์€ ๊ทธ๊ฒŒ ๊ทธ๊ฑฐ๋‹ค.

์—ฌ๊ธฐ๊นŒ์ง€๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•  feature๋“ค์ด ์–ด๋–ค ๊ฒŒ ์žˆ์„ ์ˆ˜ ์žˆ๊ณ  ๊ทธ๋Ÿฐ ๊ฒƒ๋“ค์„ ๊ฐ€์ง€๊ณ  ๋ฌด์Šจ ์ผ์„ ํ•ด์•ผ ํ•  ๊ฑด๊ฐ€ ํ•˜๋Š” ์ด์•ผ๊ธฐ๋ฅผ ํ•ด ๋ณด์•˜๋‹ค. ๋‹ค์Œ์œผ๋กœ๋Š” percolator์—์„œ ์ด ํ•™์Šต์„ ์–ด๋–ป๊ฒŒ ํ–ˆ๋Š”์ง€, ํ•™์Šต ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ๋„ ์•Œ์•„๋ณด์ž.

Model

Model: training data

์•„๋ž˜์˜ ์‚ฌ์ง„์„ ๋ณด๋ฉด positive๋ฅผ ์“ด๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ ์‹ค์ œ๋กœ percolator๊ฐ€ ๋ฌด์—‡์„ confidentํ•˜๋‹ค๊ณ  ๋ณด๋ƒ๋ฉด, target-decoy์—์„œ 1% FDR์„ ํ•ด์„œ ๊ทธ threshold๋ฅผ ๋„˜๋Š” ์• ๋“ค์„ ๋‹ค ๊ทธ๋ƒฅ confidentํ•œ PSM์œผ๋กœ ๋ณด๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ 1% FDR์„ ํ†ต๊ณผํ•œ target hit๋“ค์„ ์ „๋ถ€ positives๋กœ ๋ณด๊ณ  negatives๋Š” decoy ์ค‘์— (์ด์ œ classification์„ ํ•ด๋ณด๋ฉด ๊ทธ class์˜ size๋ฅผ ์–ด๋А ์ •๋„ ๋งž์ถ”๋Š” ๊ฒŒ, ๋น„๊ต์  uniformํ•˜๊ฒŒ ๋ถ„ํฌํ•˜๋Š”๊ฒŒ ํ•™์Šต์‹œํ‚ค๋Š”๋ฐ ๊ต‰์žฅํžˆ ์ค‘์š”, ์‹ค์ œ data space๋Š” ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๊ณ  ํ•˜๋”๋ผ๋„! โ†’ ๊ทธ๋ž˜์•ผ generalization์ด ์ถฉ๋ถ„ํžˆ ๋จ) decoy hit์„ ๋Š˜ ์ด๋งŒํผ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

๋‹ค์‹œ ๋งํ•ด, target hit ์ค‘์— ์ผ๋ถ€๋งŒ positive๋กœ ์‚ฌ์šฉํ•˜์—ฌ set์„ ๋งŒ๋“ค๊ณ , ๊ทธ๊ฒƒ๊ณผ ๋น„์Šทํ•œ ์ •๋„์˜ decoy hit์„ randomํ•˜๊ฒŒ ๊ณ ๋ฅธ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–‘์ชฝ์˜ ๋ฐธ๋žœ์Šค๋ฅผ, ํ•™์Šต data์˜ ํฌ๊ธฐ๋ฅผ ์–ด๋А ์ •๋„ ๋งž์ถ˜ ๋‹ค์Œ์— ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 20

์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ํ•™์Šต data๋ฅผ ์ด์šฉํ•ด์„œ, SVM์„ ํ•™์Šตํ•ด์„œ ์–ป์€ ํ•™์Šต model์ด ๋‚˜์˜ค๋ฉด ๊ทธ classifier๋ฅผ ์ด์šฉํ•ด์„œ ๋‹ค์‹œ re-score(re-rank๋Š” re-score๋ฅผ ํ†ตํ•ด rank๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์—ฌ๊ธฐ์„œ๋Š” re-score๊ฐ€ ๋” ์ ํ•ฉํ•  ๋“ฏ)๋ฅผ ํ•œ๋‹ค. ์ดํ›„ ๋‹ค์‹œ ํ•œ๋ฒˆ FDR์„ ํ•˜๋ฉด label์ด ๋ฐ”๋€” ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ positive set์„ ๋‹ค์‹œ ์ •ํ•˜๊ณ  ๊ทธ๋•Œ ๋˜ negative๋ฅผ ๊ทธ ์ˆซ์ž๋งŒํผ randomํ•˜๊ฒŒ ๋‹ค์‹œ decoy์—์„œ ๋ฝ‘๊ณ .. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 21

percolator๋Š” ์–ธ์ œ๊นŒ์ง€ ์ด iteration์„ ํ•˜๋А๋ƒํ•˜๋ฉด, ์‹ค์ œ๋กœ๋Š” ์ตœ๋Œ€ 10๋ฒˆ๊นŒ์ง€๋งŒ iteration์„ ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ SVMํ•™์Šต์˜ ์ธก๋ฉด์—์„œ ๋ณผ ๋•Œ, 10๋ฒˆ ์ด์ƒ์€ ์ ˆ๋Œ€๋กœ ์•ˆํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์‹คํ—˜์ ์œผ๋กœ ํ•ด๋ณด๋‹ˆ, data size๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๋ฉด(์˜ˆ๋ฅผ ๋“ค์–ด 1๋งŒ๊ฐœ) iteration์„ 1~2๋ฒˆ ์ •๋„ ํ•˜๊ณ  ๋‚˜๋ฉด seturation๋˜์„œ ๋” ์ด์ƒ ๋ฐ”๋€Œ์ง€ ์•Š๋Š” ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์‹คํ—˜์ ์œผ๋กœ ํ•ด๋ณด๋‹ˆ๊นŒ 10๋ฒˆ ์ •๋„ ํ•˜๋ฉด target-decoy๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ๋Š” ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅํ•˜๋‹ค๋ผ๊ณ  ์ƒ๊ฐ์„ ํ•ด์„œ ์ด์ œ max 10๋ฒˆ ์ด๋ ‡๊ฒŒ ํ•œ ๊ฒƒ์ด๋‹ค. ์ด ํ•™์Šต์„ 10๋ฒˆ ํ•œ๋‹ค๋Š”๊ฒŒ ์‹œ๊ฐ„์ ์œผ๋กœ๋Š” ๊ต‰์žฅํžˆ ๊ณ„์‚ฐ ์ž์›์„ ์“ฐ๋Š” ์ธก๋ฉด์—์„œ๋Š” ํ•™์Šต์„ 10๋ฒˆ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒŒ ๊ทธ๋ ‡๊ฒŒ ํ–‰๋ณตํ•œ ์ผ์€ ์•„๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ percolator๋Š” ๋น„๊ต์  ๋น ๋ฅธ ํ•™์Šต์„ ์œ„ํ•ด์„œ linear SVM์„ ์‚ฌ์šฉํ•œ๋‹ค. ํ•™์Šต์„ ๋นจ๋ฆฌ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋‹ค๋ฅธ ํ•™์Šต model์„ ์“ฐ๋ฉด ์ด๊ฑธ iteration ๋ฐ˜๋ณตํ•˜๋Š”๊ฒŒ ๊ต‰์žฅํžˆ ๋ถ€๋‹ด์Šค๋Ÿฌ์šธ ์ˆ˜ ์žˆ๋Š”๊ฒƒ์ด๋‹ค.

Model: SVM(1)

์ด SVM์ด ์–ด๋–ค ํ•™์Šต ๋ชจ๋ธ์ด๋ƒ ๊ฐœ๋… ์ •๋„๋งŒ ์„ค๋ช…ํ•˜๊ณ  ๋„˜์–ด๊ฐ€๋„๋ก ํ•˜์ž. ์•„๋ž˜์˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์—ฌ๊ธฐ์— ์žˆ๋Š” ์ด ์ ๋“ค๋กœ ํ‘œํ˜„๋œ ๊ฒƒ๋“ค์ด ์ด์ œ ํ•™์Šต data์ด๊ณ , ์ง„ํ•œ ์• ๋“ค์ด positive, ํ๋ฆฐ ์• ๋“ค์ด negative๋‹ค ๊ทธ๋Ÿฌ๋ฉด SVM์€ ์ด๊ฑธ 2์ฐจ์› ํ‰๋ฉด์œผ๋กœ ์„ค๋ช…ํ•˜์ง€๋งŒ, ์ด ํ•™์Šต data๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” feature์˜ vector๊ฐ€ ์žˆ๋Š” ๊ฑฐ๊ณ , ๊ทธ feature vector๋Š” 2์ฐจ์›์ด ์•„๋‹ ์ˆ˜๋„ ์žˆ๋‹ค. ๋‹น์—ฐํžˆ ๊ฑ”๋„ค๋“ค์€ ์–ด๋–ค ์ฐจ์›์ผ์ง€ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ž„์˜์˜ ์ฐจ์›์˜ vector์ธ๋ฐ, ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๊ทธ๋ฆผ์—์„œ๋Š” 2์ฐจ์›์ฒ˜๋Ÿผ ํ‘œ์‹œ๋˜์–ด ์žˆ๋‹ค. ์ด๋•Œ w,xw, x๋Š” ์–ด๋–ค vector๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Untitled 22

๊ทธ๋ž˜์„œ ์ด์ œ ๋งŒ์•ฝ์— 2์ฐจ์› ํ‰๋ฉด ์ƒ์— ์ด๋ ‡๊ฒŒ data๋“ค์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด ๊ทธ data๋“ค์„ ๊ตฌ๋ถ„ ์ง“๋Š” 2๊ฐœ์˜ cluster๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. positive set๊ณผ negative set, ์ด ๋‘˜์„ ์ž˜ ๊ตฌ๋ถ„ํ•˜๋Š” ์–ด๋–ค decision boundary๋ฅผ ์ฐพ๊ณ  ์‹ถ์€ ๊ฑด๋ฐ, SVM์€ ๋‘ set์‚ฌ์ด์˜ ์˜์—ญ์„ ๊ตฌ๋ถ„ ์ง“๋Š”, data point ์‚ฌ์ด๋ฅผ ๊ตฌ๋ถ„ ์ง“๋Š” ๊ณต๊ฐ„์„ ๊ตฌํ•˜๊ณ  ์‹ถ์€ ๊ฒƒ์ด๋‹ค. ๊ทธ ๊ณต๊ฐ„์˜ ๊ฐ€์šด๋ฐ๋ฅผ ์ง€๋‚˜๋Š” ๊ฒƒ์ด maximal margin์„ ๊ฐ–๋Š” decision boundary์ด๊ณ , ์ด ์˜์—ญ์„ ์ค‘์‹ฌ์œผ๋กœ positive์™€ negative๊ฐ€ ๊ตฌ๋ถ„์ด ๋œ๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ํšŒ์ƒ‰ ๋ถ€๋ถ„์ด ๊ทธ margin์˜ ์˜์—ญ์ด๊ณ , ๊ฐ€์žฅ ์ž˜ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์ด Decision boundary, ๊ทธ๋ฆฌ๊ณ  SVM์ด ์›ํ•˜๋Š” ๊ฒƒ์€ ์ตœ๋Œ€๋กœ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” line์ด ๋งŒ๋“ค์–ด์ง€๋Š”๊ฒŒ ์–ด๋””๋ƒ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.

์—ฌ๊ธฐ์„œ๋Š” ์ด์ œ ์ด๋ ‡๊ฒŒ 2์ฐจ์›์œผ๋กœ ์„ค๋ช…ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ง์„  ๋‘ ๊ฐœ๋กœ ์„ค๋ช…ํ–ˆ์ง€๋งŒ, ์ด๊ฒŒ ์ด์ œ ์ฐจ์›์ด ๋Š˜์–ด๋‚˜๋ฉด, 3์ฐจ์›์ด๋ฉด ํ‰๋ฉด์ด, 4์ฐจ์›์ด๋ฉด 3์ฐจ์› ๊ณก์„ ์ด ๋  ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ์ฐจ์›์ด ๋Š˜์–ด๋‚˜๋ฉด ๊ทธ๋ ‡๊ฒŒ ๊ณ„์† ๋‹ฌ๋ผ์ง„๋‹ค๊ณ  ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Model: training a linear SVM

์ด๊ฑธ ๊ตฌํ•˜๋Š” ๊ณผ์ •๋„ ์กฐ๊ธˆ ์‚ดํŽด๋ณด๋ฉด ํฅ๋ฏธ๋กญ๊ธฐ๋Š” ํ•˜๋‹ค. ์ด๋ ‡๊ฒŒ margin์„ ๊ฐ€์žฅ ๋„“ํžˆ๋Š” ๊ทธ๋Ÿฐ decision boundary๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” positive set์— ๋Œ€ํ•ด์„œ xx๊ฐ€ positive set์ผ ๋•Œ, wx+b>1wx+b > 1์ด์—ฌ์•ผ ํ•œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด positive set์˜ supporting vector๋ฅผ ์ง€๋‚˜๋Š” ์ง์„ ์ด wx+b=1wx+b=1์ธ ์ง์„ ์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ๋ณด๋‹ค ์ปค์•ผํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ label์ด negative์ธ xx์— ๋Œ€ํ•ด์„œ๋Š” wx+b<โˆ’1wx+b < -1์ด์—ฌ์•ผ ํ•œ๋‹ค.

Untitled 23

์ด์ œ ์ด ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋„๋ก ๊ตฌํ•ด๋ณด๋ฉด ๊ฒฐ๊ตญ ์ด ฮป\lambda๋ผ๊ณ  ํ•˜๋Š” ๊ฒŒ ๋‘ ์ง์„  ์‚ฌ์ด์˜ margin์ด๋‹ค. x+x^+๋ผ๊ณ  ํ•˜๋Š”๋ฐ positive์˜ ์ง์„ ์ด๊ณ , xโˆ’x^-๋ผ๊ณ  ํ•˜๋Š”๊ฒŒ negative์˜ ์ง์„ ์„ ์˜๋ฏธํ•œ๋‹ค. ๋‘ ์ง์„ ์€ ๊ฒฐ๊ตญ ww๋ฒกํ„ฐ์˜ ๋ฑกํ–ฅ์œผ๋กœ ํ‰ํ–‰ ์ด๋™ ์‹œํ‚จ ๊ฒƒ์ด์ง€ ๋•Œ๋ฌธ์— ฮป\lambda๋งŒํผ, ์ด ํฌ๊ธฐ๊ฐ€ ๋‚จ๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์œ„ ๊ทธ๋ฆผ์˜ ์‹๋“ค๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๊ณ , ์ด๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ฮป\lambda๋Š” weight vector์˜ norm์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฐ’์„ ๋ถ€๋ชจ๋กœ ๊ฐ–๋Š” ์ด๋Ÿฐ ๊ฐ’์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์€ ฮป\lambda๊ฐ€ ์ œ์ผ ์ปค์ง€๋Š” ww๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. SVM์—์„œ๋Š” ๋‘˜์„ ์ œ์ผ ๋งŽ์ด ๊ฐˆ๋ผ๋†“๋Š” ww๊ฐ€ ๋ญ๋ƒ๋ฅผ ์ฐพ๋Š” ๋ฌธ์ œ๋ผ๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 24

์ด๊ฒƒ์„ ๋ฐ”๊ฟ”์„œ ์ € norm์„ minimizeํ•˜๋Š” ๋ฌธ์ œ๋กœ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ norm์ด ์•„๋‹Œ norm์˜ ์ œ๊ณฑ์„ ๊ตฌํ•˜๋Š” ์ด์œ ๋Š” ๋‚˜์ค‘์— ์ € norm์„ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ ๊ทธ ์•ˆ์— square-root๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๊ณ , norm์„ minimizeํ•˜๋‚˜ norm์˜ ์ œ๊ณฑ์„ minimizeํ•˜๋‚˜ minimizeํ•˜๋Š” ์กฐ๊ฑด์€ ๋˜‘๊ฐ™๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋ ‡๊ฒŒ ํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

minimizeํ•  ๋•Œ์˜ ์กฐ๊ฑด์„ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๊ฒฐ๊ตญ ์ฃผ์–ด์ง„ data๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋ฉด์„œ, ๋‹ค ๋งŒ์กฑ์‹œํ‚ค๋ฉด์„œ minimizeํ•ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ xix_i๊ฐ€ positive set์˜ data์ผ ๋•Œ๋Š” yy๊ฐ€ 1, negative data์ผ ๋•Œ๋Š” yy๊ฐ€ -1์ด๋ฉฐ, SVM์€ 1, -1 ์ด๋ ‡๊ฒŒ labeling์„ ํ•˜๊ฒŒ ๋œ๋‹ค. ๊ฒฐ๊ตญ ์ด๋ฅผ ํ†ตํ•ด y(wx+b)โ‰ฅ1\mathit{y(wx+b) \ge 1}์˜ ์‹์— ๋‹ค ์ ํ•ฉํ•œ ๋ชจ๋ธ์ด ๋œ๋‹ค.

์ •๋ฆฌํ•˜์ž๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

  • ์ฃผ์–ด์ง„ training data๋ฅผ ๋‹ค ๋งŒ์กฑ์‹œํ‚ค๋ฉด์„œ ์ด๊ฒƒ์„ minimizeํ•˜๋Š” ๊ทธ๋Ÿฐ ww๋ฅผ ์ฐพ๋Š”๊ฒŒ, SVM์—์„œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” decision boundary์— ํ•ด๋‹นํ•˜๋Š” ์ง์„ ์ด ๋ญ๋ƒ๋ฅผ ์ฐพ๋Š” ๋ฌธ์ œ์ด๊ณ , ์ง์„ ์€ ๊ฒฐ๊ตญ coefficient๋“ค์„ ์ฐพ๋Š” ๊ฑด๋ฐ ๊ทธ๊ฒŒ ์ด ww๋ผ๊ณ  ํ•˜๋Š” weight-vector๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์ด์ œ ์ด๋ ‡๊ฒŒ ์กฐ๊ฑด์ด ๋ถ™์—ˆ์„ ๋•Œ ์–ด๋–ค optimization์„ ํ•  ๋•Œ๋Š” Lagrange multiplier method๋ฅผ ์“ธ์ˆ˜๊ฐ€ ์žˆ๋‹ค. ์ด ์กฐ๊ฑด์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„๊นŒ์ง€๋ฅผ ํ•ฉํ•˜๋Š” equation์„ ๋งŒ๋“ค๊ณ  ๊ทธ ์ „์ฒด๋ฅผ ๊ทธ๋ƒฅ minimizeํ•˜๋ฉด ๊ทธ๋Ÿฌ๋ฉด ์›๋ž˜ ์šฐ๋ฆฌ๊ฐ€ ์ด ์กฐ๊ฑด์ผ ๋•Œ norm์„ minimizeํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Lagrange multiplier method์— ์˜ํ•ด ๊ฐ๊ฐ์„ ๊ทธ๋ƒฅ ํŽธ๋ฏธ๋ถ„ํ•ด์„œ ๊ทธ๊ฒŒ 0์ด ๋˜๋Š”, 3๊ฐœ์˜ parameter ๊ฐ๊ฐ์— ๋Œ€ํ•ด์„œ ํŽธ๋ฏธ๋ถ„์„ ํ•œ ๋‹ค์Œ์— ์ด ์ „์ฒด ํ•จ์ˆ˜๊ฐ€ 0์ด ๋˜๋Š” ๊ฐ’์ด ๋ญ๋ƒ๋ฅผ ์ฐพ์œผ๋ฉด ๋œ๋‹ค. ๊ทธ๋ž˜์„œ ์œ„์˜ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด๋ฉด ww์™€ bb, ์—ฌ๊ธฐ์—๋Š” ์•ˆ๋‚˜ํƒ€๋‚ฌ์ง€๋งŒ ฮฑ\alpha์— ๋Œ€ํ•ด์„œ๋„ ํŽธ๋ฏธ๋ถ„์„ ํ•œ ๋‹ค์Œ์— ๊ทธ๊ฑฐ๋ฅผ ๋งŒ์กฑ์‹œํ‚ค๋Š” ๊ฐ’์„ ์ฐพ๋Š” ๋ฌธ์ œ๋กœ ๋ฐ”๊ฟ”์„œ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด SVM์„ ์ œ๋Œ€๋กœ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ๊ต‰์žฅํžˆ ๋ณต์žกํ•˜๋‹ค. ๊ฐœ๋…์„ ์ดํ•ดํ•˜๋Š” ์ •๋„๋กœ๋งŒ ๊ฐ„๋žตํ•˜๊ฒŒ ์„ค๋ช…์„ ํ•˜๋ฉด ๊ทธ๋Ÿฐ ๊ฒƒ์œผ๋กœ ์ถฉ๋ถ„ํ•  ๊ฒƒ ๊ฐ™๋‹ค๊ณ  ์ƒ๊ฐ๋œ๋‹ค.

Model: testing a linear SVM

๊ทธ๋ ‡๊ฒŒ ํ•ด์„œ ww์™€ bb์™€ ์ด๋Ÿฐ ๊ฒƒ์ด ์–ด๋–ค ๊ฐ’์„ ๊ฐ€์งˆ ๋•Œ margin์ด maximize๋˜๋ƒ ํ•˜๋Š” ๊ฑฐ๋ฅผ ์šฐ๋ฆฌ๊ฐ€ ์ฐพ์œผ๋ฉด ๊ทธ ๋‹ค์Œ์—๋Š” inference๋Š” ๊ต‰์žฅํžˆ ๊ฐ„๋‹จํ•˜๋‹ค. wbwb์— ์˜ํ•ด์„œ 2๊ฐœ์˜ ์ง์„ ์ด ์ •ํ•ด์ง€๊ณ , ๊ทธ 2๊ฐœ์˜ ์ง์„  ๊ฐ€์šด๋ฐ๋ฅผ ์ง€๋‚˜๊ฐ€๋Š” ์• ๋ฅผ ์šฐ๋ฆฌ๊ฐ€ decision boundary๋ผ๊ณ  ํ–ˆ์œผ๋‹ˆ๊นŒ, ๊ทธ decision boundary๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๊ทธ๋Ÿฌ๋ฅผ ๋„˜์œผ๋ฉด positive, ์•„๋‹ˆ๋ฉด negative (training data๋Š” 1๊ณผ -1๋กœ label์„ ๋ถ™์˜€์ง€๋งŒ inferenceํ•  ๋•Œ๋Š” ์ค‘์‹ฌ์ด 0, ์ฆ‰ decision boundary๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— 0์„ ์ค‘์‹ฌ์œผ๋กœ ๊ตฌ๋ณ„!)๋กœ ํ•ด์„œ ํŒ๋‹จํ•œ๋‹ค.

Untitled 25

Model: SVM(2)

์ค‘์š”ํ•œ ๊ฒƒ์€ 2๊ฐ€์ง€์ด๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ์ด๋ ‡๊ฒŒ margin์„ maximizeํ•˜๋Š” ๊ทธ๋Ÿฐ decision boundary๋ฅผ ์ฐพ์žํ•˜๋Š” ๊ฒƒ. ๋˜ ํ•˜๋‚˜๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์ด์•ผ๊ธฐ ํ•˜๋“ฏ, kernel trick์ด๋ผ๊ณ  ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด 2๊ฐ€์ง€๊ฐ€ SVM ํ•™์Šต์˜ ๊ฐ€์žฅ ํฐ contribution์ด๋‹ค.

Untitled 26

์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด์ž. ํ•™์Šต data๊ฐ€ ์ด๋ ‡๊ฒŒ margin์„ ๋‘๊ณ  ์™„์ „ํžˆ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๊ฒŒ ์ฃผ์–ด์ง€๋ฉด ๊ทธ๋‚˜๋งˆ ๋‹คํ–‰์ธ๋ฐ ์–ด๋–ค decision boundary๋ฅผ ๊ฐ€์ ธ์™€๋„ ์–˜๋„ค๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์—†์„ ๋•Œ! ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ separableํ•˜์ง€ ์•Š์€ data๊ฐ€ ์ฃผ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ํ•™์Šต data์—๋Š” noise๋„ ์„ž์—ฌ ์žˆ๊ณ , ๊ทธ ์ด์ƒํ•œ ๊ฒƒ๋“ค์ด ๋งŽ์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ €๋ ‡๊ฒŒ separation์ด ์ž˜ ๋˜์ง€ ์•Š๋Š” ํ•™์Šต data๊ฐ€ ์™”์„ ๋•Œ ์–ด๋–ป๊ฒŒ ํ•  ๊ฑฐ๋ƒ ์ด๋Ÿฐ ๊ฒฝ์šฐ์ธ ๊ฒƒ์ด๋‹ค. 2์ฐจ์› ํ‰๋ฉด์—์„œ ๋ณด์ž๋ฉด ๋นจ๊ฐ„์ƒ‰๊ณผ ํŒŒ๋ž€์ƒ‰ ์ด ๋‘ ๊ทธ๋ฃน์„ ๊ตฌ๋ณ„ํ•ด์•ผ ํ•˜๋Š”๋ฐ ์ง€๊ธˆ ์ด๋Ÿฐ ์‹์œผ๋กœ data๊ฐ€ ๋ฐฐ์น˜๊ฐ€ ๋˜์–ด ์žˆ์–ด์„œ ์–ด๋””์—๋‹ค ์ง์„ ์„ ๊ทธ์–ด๋„ ๋‘ class๋ฅผ ์™„์ „ํ•˜๊ฒŒ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ์ง์„ ์€ ์—†๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, ์ง์„ ์ด๋ผ๋Š” ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์ด์ƒ์€, ๋ชจ๋ธ์ด linear SVM์ด๋ผ๋Š” ํ•˜๋Š” ๊ทธ ์กฐ๊ฑด ํ•˜์—์„œ๋Š” ๋นจ๊ฐ„ class๊ฐ€ ํŒŒ๋ž€ class๋ฅผ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ์ง์„ ์€ ์ด ์„ธ์ƒ์— ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 27

๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— โ€Slackโ€ variable์ด๋ผ๋Š” ๊ฒƒ์„ ์ถ”๊ฐ€ํ•ด์„œ margin์„ ์กฐ๊ธˆ softํ•˜๊ฒŒ ๊ฐ€๋Š” ๊ฒƒ์ด๋‹ค.(soft margin) ์›๋ž˜๋Š” ์œ„์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ positive set๊ณผ negative set์— ๋Œ€ํ•œ boundary์—์„œ ์ค‘๊ฐ„์— ๋‚˜์˜ค๋Š” ์• ๋“ค(x3,x4,x5x_3, x_4, x_5)์€ ํฌ๊ธฐ๋ฅผ ํ•ด์•ผํ•˜๋Š”๋ฐ, ๊ทธ๋ ‡์ง€ ์•Š๊ณ  ์•ฝ๊ฐ„์˜ ์—ฌ์œ ๋ฅผ ๋‘์–ด์„œ ํ—ˆ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๊ทธ๋Ÿฐ ๊ฐœ์„ ์„ ์ข€ ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, soft margin์„ ์ฃผ์–ด์„œ ๊ทธ ์•ˆ์—์„œ๋Š” ์™”๋‹ค๊ฐ”๋‹ค ํ•˜๋”๋ผ๋„ ํ—ˆ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ์„ ํ•œ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ณด๋‹ค ๋” ์ค‘์š”ํ•œ ๊ฒƒ์€ โ€Kernelโ€ trick์ด๋ผ๊ณ  ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Model: kernel trick

์œ„์—์„œ ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ input space ์•ˆ์—์„œ๋Š” ์ ˆ๋Œ€๋กœ decision boundary๋ฅผ ์ฐพ์„ ์ˆ˜ ์—†๋Š” ๋ฌธ์ œ๋ผ๊ณ  ํ•˜๋”๋ผ๋„ ์–˜๋„ค๋ฅผ ๋‹ค๋ฅธ ์ฐจ์›์œผ๋กœ data๋ฅผ ์˜ฎ๊ธฐ๋ฉด, ์ฆ‰ feature space๋ฅผ ๋ฐ”๊พธ๋ฉด(transformation), ๊ฑฐ๊ธฐ์„œ๋Š” decision boundary๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด kernel trick์˜ ํ•ต์‹ฌ์ด๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋ฐ”๊พธ๊ณ  ๋‚˜์„œ classify๋ฅผ ํ•ด๋ณด์ž ํ•˜๋Š”๊ฒŒ ๊ธฐ๋ณธ์ ์ธ ์ƒ๊ฐ์ธ ๊ฒƒ์ด๋‹ค.

Untitled 28

์ด๋ ‡๊ฒŒ ๋ฐ”๊พธ๋Š” ๊ฑฐ๋ฅผ kernel function์„ ์ด์šฉํ•ด์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, optimal solution์„ ์ฐพ๊ธฐ ์œ„ํ•œ ๊ณ„์‚ฐ์„ ํ•˜๋‹ค ๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์€ ์‹๋“ค๊ณผ ๋งŒ๋‚  ์ˆ˜ ์žˆ๋‹ค. 2๊ฐœ์˜ data xix_i์™€ xjx_j, ๊ทธ 2๊ฐœ์˜ data point ์‚ฌ์ด์— ์ด๋Ÿฐ ๊ณฑ์„ ๊ตฌํ•ด์•ผํ•˜๋Š” ์ผ์ด ์ƒ๊ธฐ๋Š”๋ฐ ๊ฐ๊ฐ์„ ๋‹ค๋ฅธ feature space๋กœ ๋ณด๋‚ธ ๊ฒƒ์ด๋‹ค. xix_i์™€ xjx_j๋ฅผ transformํ•ด์„œ ฮฆ(xi)\Phi(x_i)์™€ ฮฆ(xj)\Phi(x_j)๋กœ ๋ฐ”๊พผ๋‹ค. ๊ทธ ๋‹ค์Œ์— ๊ทธ๋“ค ์‚ฌ์ด์˜ ๊ณฑ์„ ๊ตฌํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ฐ”๊พธ๋ฉด classification์ด ์ž˜ ๋˜๊ธฐ๋„ ํ•˜๋”๋ผ๋ผ๋Š” ์ด์•ผ๊ธฐ์ด๋‹ค.

Untitled 29

์–ด๋–ค transformation์„ ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€ ํ•˜๋ฉด, ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, linear, polynomial, sigmoid, gaussian ์ด๋Ÿฐ ๊ฒƒ๋“ค์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด์ œ ํฅ๋ฏธ๋กœ์šด ๊ฒƒ์€ ๊ทธ๋ ‡๊ฒŒ transformation์„ ํ•˜๋ผ๊ณ  ํ•˜๋ฉด transformation ํ•˜๋Š” ์‹œ๊ฐ„์ด ํ•„์š”ํ•˜๊ณ  ๊ฑฐ๊ธฐ ๊ฐ€์„œ ๊ณฑํ•ด์•ผ ํ•˜๋Š”๋ฐ ๋งŽ์€ ๊ฒฝ์šฐ ์ด transformation์ด ์ฐจ์›์ด ๋Š˜์–ด๋‚˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๋Š˜์–ด๋‚œ ์ฐจ์›์—์„œ ๊ณฑํ•ด์•ผ ๋˜๋‹ˆ๊นŒ ๊ณ„์‚ฐ๋Ÿ‰์ด ํ›จ์”ฌ ๋Š˜์–ด๋‚˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

์ด SVM ๋…ผ๋ฌธ์—์„œ ํฅ๋ฏธ๋กœ์šด ๊ฒƒ์€ ์ด๋ ‡๊ฒŒ transformationํ•œ ๋‹ค์Œ์— ๊ณฑ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ํ•˜๋‚˜์˜ kernel function์œผ๋กœ ๊ทธ๋ƒฅ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๊ณ , ๊ฐ transformation์— ์žˆ์–ด kernel function์ด ์œ„ ๊ทธ๋ฆผ์˜ ํŒŒ๋ž€ ๋ถ€๋ถ„์ฒ˜๋Ÿผ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๊ทธ๋ž˜์„œ ์ฒ˜์Œ์— ๋Š˜๋ฆฌ๋Š” transformation์„ ๊ฐ๊ฐ ํ•œ ๋‹ค์Œ์— ๋Š˜์–ด๋‚œ ์ฐจ์›์—์„œ ๊ณฑ์„ ๊ตฌํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ํ›จ์”ฌ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ ๊ฒŒํ•˜๊ณ ๋„ ๊ฐ™์€ ์ผ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๋ณด์—ฌ์คŒ์œผ๋กœ์„œ ์ด์ œ ํ•™์Šต์„ ํ•  ๋•Œ ๊ทธ์ € ์„ ํƒ์„ ํ•˜๋ฉด ๋˜๋ฉฐ, ๊ทธ๋Ÿฐ ์„ ํƒ์— ์žˆ์–ด kernel fuction์„ ์ด์šฉํ•˜๋ฉด ๊ณ„์‚ฐ์€ ๋นจ๋ผ์ง€๋˜, ๊ณ„์‚ฐ๋Ÿ‰์€ ๋Š˜์–ด๋‚˜์ง€ ์•Š๋Š”๋‹ค. ( ๊ณ„์‚ฐ๋Ÿ‰์ด ๋Š˜์–ด๋‚˜๊ธฐ๋Š” ๋Š˜์–ด๋‚œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด feature space๋ฅผ ํ™•์žฅ ์ฐจ์›์— ๋Š˜๋ ค๋†จ๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ๋Ÿ‰์ด ์ค„์–ด๋“ค ์ˆ˜๋Š” ์—†๋‹ค. ๋‹จ, ๋ฏธ์น˜๋“ฏ์ด ๋Š˜์–ด๋‚˜์ง€๋Š” ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.)

kernel function์„ ๋‹ค๋ฅธ ๊ฒƒ์„ ์จ์„œ SVM์„ ์‹œ๋„ํ•ด๋ณด๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•œ๋ฐ, non-linearํ•œ ๊ฒƒ๋“ค์„ ์“ฐ๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ์‹ค์ œ ์†๋„๋Š” ๊ต‰์žฅํžˆ ๋А๋ ค์ง„๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๋ณด๊ณ  ์žˆ๋Š” ๊ฒƒ ์ฒ˜๋Ÿผ SVM ํ•™์Šต ์ž์ฒด๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•ด์•ผํ•˜๋Š” ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ๋Š” ๊ณ„์‚ฐ๋Ÿ‰์ด ์›Œ๋‚™ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— kernel function์„ ๋‹ค๋ฅธ ๊ฑธ ์“ฐ๋Š” ๊ฒŒ ๊ทธ๋ ‡๊ฒŒ ๋ฐ”๋žŒ์งํ•œ ์ƒํ™ฉ์€ ์•„๋‹Œ ๊ฒƒ์ด๋‹ค.

Percolator iteration

์ด percolator๊ฐ€ ํ•˜๋Š” ์ผ์— ๋Œ€ํ•ด ์ „์ฒด์ ์ธ ๊ฒƒ์„ ์‚ดํŽด๋ณด์•˜๋‹ค. ๋‹ค์Œ์œผ๋กœ data๋ฅผ ์–ด๋–ค ์‹์œผ๋กœ iteration์ด ๋ฐ˜๋ณต๋˜๋ฉด์„œ ๋ฐ”๊พธ๋Š”์ง€, ๊ทธ ๋‹ค์Œ์— ํ•™์Šต์— ์‚ฌ์šฉํ•œ SVM์ด๋ผ๋Š” model์ด ์–ด๋–ค ๊ฒƒ์ธ์ง€ ์ด๋ ‡๊ฒŒ ํ–ˆ๋”๋‹ˆ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ๋˜์—ˆ๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

Untitled 30

์œ„ ๊ทธ๋ฆผ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” Crux๋Š” ์ด์ œ SEQUEST๋ฅผ ๊ต‰์žฅํžˆ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์•ฝ๊ฐ„ ๊ฐœ์„ ํ•œ software์ด๋‹ค. Crux๋ฅผ ๋Œ๋ ค์„œ Crux๊ฐ€ ์ฃผ๋Š” p-value๋ฅผ ๊ฐ€์ง€๊ณ  target-decoy๋ฅผ ํ•ด๋ดค๋”๋‹ˆ ๊ฐ™์€ FDR 1%์—์„œ ๊ทธ๋ž˜ํ”„ ๋‚ด ์ฃผํ™ฉ์ƒ‰๊ณผ ๊ฐ™์ด ID๊ฐ€ ๋‚˜์™”๋‹ค. ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ Crux๋ฅผ ๋˜‘๊ฐ™์ด ๋Œ๋ฆฌ๊ณ  ๊ทธ๊ฑฐ์— ๋Œ€ํ•ด์„œ percolator๋ฅผ ์‹คํ–‰ํ•˜๊ณ  ๋‚ฌ๋”๋‹ˆ ๊ทธ๋ž˜ํ”„ ๋‚ด ํŒŒ๋ž€์ƒ‰๊ณผ ๊ฐ™์ด ID๊ฐ€ ๋Š˜์–ด๋‚ฌ๋”๋ผ ํ•˜๋Š”๊ฒŒ ์ด ์‚ฌ๋žŒ๋“ค์˜ ์ฃผ์žฅ์ด๋‹ค. ๊ทธ๋ž˜์„œ ์ „์ฒด psm์„ target psm 137๋งŒ๊ฐœ ์งœ๋ฆฌ๋ฅผ ๊ฐ€์ง€๊ณ  ์ผ์„ ํ•ด๋ณด๋‹ˆ ์ด๋ ‡๊ฒŒ FDR๋ณ„๋กœ ID๋˜๋Š” ๊ฐฏ์ˆ˜๊ฐ€ ๋ฐ”๋€Œ๋Š”๋ฐ ์šฐ๋ฆฌ๊ฐ€ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ๊ทผ์ฒ˜(์ ์„ )์—์„œ๋Š” ์ด๋ ‡๊ฒŒ ์ฐจ์ด๊ฐ€ ๋งŽ์ด ๋‚ฌ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Search๋Š” ๋™์ผํ•œ ๊ฒƒ์„ ํ–ˆ๋Š”๋ฐ ๋’ค์— percolator๋ฅผ ๋Œ๋ฆฌ๋А๋ƒ ์•ˆ ๋Œ๋ฆฌ๋А๋ƒ์— ๋”ฐ๋ผ์„œ ID์˜ ๊ฐฏ์ˆ˜๊ฐ€ ์ €๋ ‡๊ฒŒ ์ฐจ์ด๊ฐ€ ๋งŽ์ด ๋‚ฌ๋‹ค. 4์ฒœ 8๋ฐฑ๋งŒ๊ฐœ๊ฐ€ 5์ฒœ 5๋ฐฑ๋งŒ๊ฐœ๊ฐ€ ๋์œผ๋ฉด 10%๋ณด๋‹ค๋„ ๋” ๋งŽ์ด ๋Š˜์–ด๋‚œ ๊ฒƒ์ด๋‹ค.

์ด์ œ ์™œ ๋Š˜์–ด๋‚ฌ๋Š”๊ฐ€๋ฅผ ์ƒ๊ฐํ•ด๋ณด๋ฉด, ์šฐ์„  percolator์—์„œ feature๊ฐ€ ๋” ๋งŽ์ด ์“ฐ์˜€๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด target-decoyํ•  ๋•Œ input feature๋ฅผ ๋งŽ์ด ์“ฐ๋ฉด ๋˜๋Š”๊ฑฐ ์•„๋‹ˆ๋ƒ๊ณ , target-decoyํ•  ๋•Œ ๊ธฐ์ค€ ํ•˜๋‚˜๋งŒ ์“ฐ์ง€ ๋ง๊ณ  ์—ฌ๋Ÿฌ ๊ฐœ ์ž˜ ์กฐํ•ฉํ•ด์„œ ์“ฐ๋ฉด ๋˜๋Š” ๊ฑฐ ์•„๋‹ˆ๋ƒ๊ณ  ๋ฐ˜๋ฌธํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ๊ฒƒ๊ณผ๋Š” ๋ฐฉ๋ฒ•์ด ์ข€ ๋‹ค๋ฅด๋‹ค.

ํ•™์Šต์ด ๋“ค์–ด๊ฐ„ ๊ฒƒ์ด๋‹ค. ๊ฐ feature์˜ ์ค‘์š”๋„ weight๋ฅผ ํ•™์Šตํ•œ ๊ฒƒ ๊ฐ™์€๋ฐ ๊ฒฐ๊ตญ์€ ์ค‘์š”๋„ data์˜ ํŠน์„ฑ์„ ํ•™์Šตํ•œ ๊ฒƒ์ด๋‹ค. overfitting์„ ํ•˜๊ณ  ์žˆ๋Š” ๊ฑฐ ์•„๋‹ˆ๋ƒ๋Š” ์˜์‹ฌ์ด ๋“ค ์ˆ˜ ์žˆ๋Š”๋ฐ validation๊ณผ test๊นŒ์ง€ ๋‹ค ์ž˜ ํ•ด๋ด๋„ ๋น„๊ต์  ์“ธ ๋งŒ ํ•˜๊ณ , overfitting ํ•˜๋Š” ๊ฒฝ์šฐ๋Š” ๋“œ๋ฌผ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ฒฐ๊ตญ์€ ํŠน์ •ํ•œ data์— ์ž˜๋งž๋Š” feature์˜ ์กฐํ•ฉ์„ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค๋ผ๊ณ  ์ƒ๊ฐํ•˜๊ณ  ์žˆ๋‹ค.

์ด์ œ ๋˜ ํ•œ๊ฐ€์ง€๋Š” ์—ฌ๋Ÿฌ feature๋ฅผ ๋ฌผ๋ก  ์กฐํ•ฉํ•˜๋Š” ๊ฑฐํ•˜๊ณ  ์ƒ๊ด€์ด ์žˆ๋Š”๋ฐ ๊ทธ๋ƒฅ ์›๋ž˜ target-decoyํ•  ๋•Œ๋Š” ๋Œ€๊ฒŒ๋Š” ์ด์ œ database search ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ฃผ๋Š” score ํ•œ ๊ฐœ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. (DBSearch ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ match๋ฅผ ์‹œํ‚ฌ ๋•Œ ๊ทธ spectrum ํ•˜๋‚˜๋งŒ ๋ณธ๋‹ค. ๊ทธ set ์ „์ฒด๋ฅผ ๋ณด์ง€ ์•Š๋Š” ๊ฒƒ์ด๋‹ค. ๋•Œ๋ฌธ์— set ์ „์ฒด๊ฐ€ ๊ฐ€์ง€๋Š” ์–ด๋–ค statisticalํ•œ ์ •๋ณด๋“ค์€ ํ•˜๋‚˜๋„ ํ™œ์šฉ์„ ์•ˆํ•˜๊ฒŒ๋œ๋‹ค.) ๊ทธ๋Ÿฐ๋ฐ ์ด์ œ percolator๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด set ์ „์ฒด์˜ ํŠน์„ฑ๋„ ๋ฐ˜์˜ํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

  • Scan ํ•˜๋‚˜๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ๋ณด์ง€ ์•Š๊ณ  ์ „์ฒด set์— ๋Œ€ํ•œ ๊ฒƒ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ๊ณผ ํŠน์ •ํ•œ data์˜ feature๋กœ ์“ฐ์ด๋Š” ๊ฒƒ๋“ค์˜ ์ค‘์š”๋„๋ฅผ ๋‹ค ์ด๋ ‡๊ฒŒ ์ ์ ˆํžˆ ์กฐ์ ˆํ•ด์„œ ๊ฑฐ๊ธฐ์— acceptiveํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ์ด๋ ‡๊ฒŒ ID๊ฐ€ ๋Š˜์–ด๋‚œ ๊ฒŒ ์•„๋‹Œ๊ฐ€ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Untitled 31

๊ทธ๋Ÿฐ๋ฐ ์ด์ œ percolator์˜ ๋‹จ์ ์€ tool๋งˆ๋‹ค feature set์ด ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํ•ด์„œ ๊ณตํ†ต๋œ ์–ด๋–ค feature๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋‚˜ ํ•ด์„œ ์ด๋Ÿฐ ์—ฐ๊ตฌ๋ฅผ ํ•œ ๊ฒƒ์ด ์œ„์˜ ์‚ฌ์ง„์ด๋‹ค.

Model: Other classification model

percolator์— ๋Œ€ํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ๊นŒ์ง€์ด๋ฉฐ, ๋ช‡๊ฐ€์ง€ classification์— ๋งŽ์ด ์“ฐ์ด๋Š” ํ•™์Šต model์„ ์•„์ฃผ ๊ฐ„๋‹จํ•œ ์นœ๊ตฌ๋“ค์„ ํ•œ ๋‘ ๊ฐ€์ง€๋งŒ ์‚ดํŽด๋ณด์ž.

Model: logistic regression

classification์„ ํ•  ๋•Œ ๋งŽ์ด ์“ฐ์ด๋Š” ๊ฒƒ ์ค‘์— ํ•˜๋‚˜๊ฐ€ ์ด logistic regression์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋ช‡ ์‹œ๊ฐ„ ๊ณต๋ถ€ํ–ˆ๋А๋ƒ์— ๋”ฐ๋ผ์„œ ์‹œํ—˜์— ํ†ต๊ณผํ•  ํ™•๋ฅ ์ด ์žˆ๋‹ค๊ณ  ํ•˜์ž. data point๋“ค์„ ์‚ดํŽด๋ณด๋ฉด ์–ด๋–ค ์‚ฌ๋žŒ์€ 3์‹œ๊ฐ„ ๊ณต๋ถ€ํ•˜๊ณ  ํ•ฉ๊ฒฉํ–ˆ๊ณ , ์–ด๋–ค ์‚ฌ๋žŒ์€ 3์‹œ๊ฐ„ ๊ณต๋ถ€ํ•˜๊ณ  ๋–จ์–ด์กŒ๊ณ , 1์‹œ๊ฐ„ ๊ณต๋ถ€ํ•œ ์‚ฌ๋žŒ์€ ๋–จ์–ด์กŒ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ทธ๋ž˜์„œ ๊ฒฐ๊ณผ๋Š” ๊ฒฐ๊ตญ ๋ถ™์—ˆ๋ƒ ๋–จ์–ด์กŒ๋ƒ์™€ ๊ฐ™์ด binary๋กœ ๊ด€์ฐฐ์ด ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์ด๊ฑฐ๋ฅผ linear regression์„ ํ•˜๊ฒ ๋‹ค๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด, ์ด ์ฃผ์–ด์ง„ data point์— ๋Œ€ํ•ด์„œ error๊ฐ€ ๊ฐ€์žฅ ์ž‘๊ฒŒ ์ง์„ ์„ ๊ธ‹๋Š” ๋ฐฉ๋ฒ•์€ ์ ์„  ๊ฐ™์€ ๊ฒƒ์ด๋‹ค. (2์‹œ๊ฐ„ ๊ณต๋ถ€ํ•˜๋ฉด ๋ถ™์„ ํ™•๋ฅ ์ด 0.1์ด๊ณ , 3์‹œ๊ฐ„ ๊ณต๋ถ€ํ•˜๋ฉด ๋ถ™์„ ํ™•๋ฅ ์ด 0.6์ด๊ณ , 5์‹œ๊ฐ„ ๊ณต๋ถ€ํ•˜๋ฉด ๋ถ™์„ ํ™•๋ฅ ์ด 1์ด๋‹ค์™€ ๊ฐ™์ด ๊ฐ’์„ ์ฃผ๋Š” ์ง์„ ์ด ๋  ๊ฒƒ์ด๋‹ค.)

Untitled 32

ํ•˜์ง€๋งŒ ์–˜๋Š” ๋”ฑ๋ด๋„ ๋ถ‰์€ ์ ์„ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ธฐ ๋ณด๋‹ค๋Š” ์ดˆ๋ก์ƒ‰ ์ ์„ ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ด์•ผ ๋  ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค. input feature๋Š” ๊ณต๋ถ€ํ•œ ์‹œ๊ฐ„ ํ•˜๋‚˜๋ฐ–์— ์—†์ง€๋งŒ ์ด๋Ÿฐ ์‹์œผ๋กœ decision boundary๋ฅผ ์ •ํ•ด์•ผ ํ•œ๋‹ค. ๋˜ ์—ฌ๊ธฐ์„œ๋„ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๊ฒฐ๊ตญ์€ decision boundary๋ฅผ ์ž˜ ์ •ํ•˜๋ ค๋ฉด ๋ฏธ๋ถ„์ด ๋˜์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด step function(์ดˆ๋ก ์ ์„ )์˜ ํ˜•ํƒœ๋กœ๋Š” ๋ฏธ๋ถ„์ด ์•ˆ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ•จ์ˆ˜๋กœ ๋ฐ”๊ฟ” ์ค€ ๊ฒƒ์ด ํŒŒ๋ž€์ƒ‰ ์„ , ์ฆ‰ logistic function, ์ค„์—ฌ์„œ๋Š” sigmoid function์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

๊ทธ ํ•จ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ƒ๊ฒผ๋‹ค.

Untitled 33

์—ฌ๊ธฐ์„œ x0x_0๋Š” ์„ผํ„ฐ๋ฅผ 0์— ๋งž์ถ”๊ธฐ ์œ„ํ•ด์„œ ํ‰๊ท ๋งŒํผ ์ด๋ ‡๊ฒŒ shiftํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ์ € ๊ธฐ๋ณธ๊ผด์ด logistic function์ด๊ณ  ์—ฌ๊ธฐ์„œ LL๊ณผ kk, x0x_0๊ฐ€ ๊ฐ๊ฐ 1, 1, 0์ผ ๋•Œ๋ฅผ sigmoid function์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™๋‹ค. classification ๋ฌธ์ œ์—์„œ ์ € ๊ทธ๋ž˜ํ”„๊ฐ€ ๋„์ถœ์ด ๋˜์—ˆ์œผ๋‹ˆ, ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ์ด parameter๋ฅผ ๊ตฌํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ณด๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ L,k,x0L, k, x_0๋ฅผ ๊ตฌํ•˜๋ฉด ๋ฌธ์ œ๋กœ ํ•ด๊ฒฐ์„ ํ•˜๋ฉด ๋˜๊ณ , ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ stocastic gradient descent ๋ฐฉ๋ฒ•, ์ฆ‰ ํŽธ๋ฏธ๋ถ„์„ ํ•ด์„œ ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์† weight๋ฅผ, parameter๋“ค์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•˜๋ฉด ๋œ๋‹ค.

logistic function์ด ์ข‹์€ ์ด์œ ๋Š” ๋ฏธ๋ถ„ํ•œ ํ•จ์ˆ˜๊ฐ€ ๋”ฑ ํฌ๋กœ์Šค ํผ์œผ๋กœ ๊ตฌํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋ ต์ง€ ์•Š๊ฒŒ ๊ทธ ๊ฐ’์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์Œ์— ์žˆ๋‹ค. ์ฆ‰, gradient๋ฅผ ์‰ฝ๊ฒŒ ๊ตฌํ•  ์ˆ˜ ์žˆ์–ด ํŽธ๋ฆฌํ•˜๊ณ , ์ด ๋•Œ๋ฌธ์— logistic regression์„ classification๋ฌธ์ œ์—์„œ ๊ต‰์žฅํžˆ ๋งŽ์ด ์‚ฌ์šฉํ•œ๋‹ค.

Model: decision tree

classification์—์„œ ๋งŽ์ด ์“ฐ์ด๋Š” ๋˜ ๋‹ค๋ฅธ ๊ฒŒ decision tree์ด๋‹ค. tree์˜ ํ˜•ํƒœ๋กœ decision tree์˜ node๋Š” ์–ด๋–ค feature์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์ด node๊ฐ€ ๋œ๋‹ค. ๊ทธ feature์˜ ๊ฐ’์ด ๋ญ๋ƒ๊ฐ€ ๊ฐ๊ฐ์˜ edge๋กœ ๋‚˜ํƒ€๋‚ด์–ด์ง„๋‹ค. ๊ทธ feature ๊ฐ’์— ๋”ฐ๋ผ์„œ ์ฃผ์–ด์ง„ data๋ฅผ ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜๋ˆ„๊ฒŒ ๋œ๋‹ค. ์ด feature๊ฐ€ ๋ญ”์ง€ ๋ชจ๋ฅด์ง€๋งŒ, ์ด feature ๊ฐ’์ด A์ธ ์• ๋“ค์ด A subtree์— ๋“ค์–ด๊ฐ€๊ณ , B์— ํ•ด๋‹นํ•˜๋ฉด ๊ทธ๋‹ค์Œ B subtree์—, ๊ทธ๋ž˜์„œ tree์˜ root์—์„œ ์‹œ์ž‘ํ•ด์„œ ์•„๋ž˜๋กœ ๋‚ด๋ ค๊ฐ€๋ฉด ๋‚ด๋ ค๊ฐˆ์ˆ˜๋ก ์ ์  ๊ทธ ํ•ด๋‹น feature์˜ ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ๊ทธ subset์œผ๋กœ ์ค„์—ฌ๋‚˜๊ฐ€๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 34

data๋Š” ๊ทธ๋ƒฅ ์ด feature๋“ค์˜ ๊ฐ’์œผ๋กœ ํ‘œํ˜„๋œ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚˜๋ฉฐ, ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด ์—‘์…€ ์‹œํŠธ์˜ ํ˜•ํƒœ๋กœ data๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ด๋ฉฐ ๊ทธ data๋กœ๋ถ€ํ„ฐ ์œ„์™€ ๊ฐ™์€ tree๋ฅผ ํ•™์Šตํ•˜๋Š”๊ฒŒ ๋ชฉํ‘œ์ธ ๊ฒƒ์ด๋‹ค. data๊ฐ€ 100๊ฐœ ํ˜น์€ 1์ฒœ ๊ฐœ, 1๋งŒ ๊ฐœ ์ฃผ์–ด์ ธ์žˆ๋‹คํ•˜๋”๋ผ๋„ data๋ฅผ ์ฝ์–ด์„œ ๊ฐ๊ฐ์˜ feature๋“ค์˜ ๊ฐ’์„ ํ†ตํ•ด ์–ด๋–ป๊ฒŒ tree๋ฅผ ๋งŒ๋“ค๊ฑฐ๋ƒ๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž. ์ด tree๋ฅผ ๋งŒ๋“ค๊ณ  ๋‚˜๋ฉด ๊ทธ ๋‹ค์Œ์—๋Š” ์–ด๋– ํ•œ data๊ฐ€ ์˜ค๋”๋ผ๋„ ๊ทธ๋ƒฅ tree๋ฅผ root์—์„œ๋ถ€ํ„ฐ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ€๋ฉด classify๊ฐ€ ๋œ๋‹ค. ํ•™์Šต data์—๋Š” ์‹ค์ œ๋กœ๋Š” ์กด์žฌํ•˜์ง€ ์•Š์•˜๋”๋ผ๋„, ๊ทธ๋Ÿฐ feature combination์ด ์กด์žฌํ•˜์ง€ ์•Š์•˜๋”๋ผ๋„, ์ด๋Ÿฐ decision tree๊ฐ€ ํ•˜๋‚˜ ๋งŒ๋“ค์–ด์ง€๋ฉด ์–ด๋–ค data๋“  ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 35

๊ฒฐ๊ตญ์€ root์— ์–ด๋–ค attribute(=feature)์„ ๊ณ ๋ฅผ๊ฑฐ๋ƒ๋กœ๋ถ€ํ„ฐ ์‹œ์ž‘๋œ๋‹ค. decision tree๋ฅผ ๋งŒ๋“ค ๋•Œ๋Š” root๋ถ€ํ„ฐ ๋งŒ๋“ค๊ณ  ์ง„ํ–‰ํ•œ๋‹ค. ์ด๋•Œ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ tree๋ฅผ ๋‹ค ์‹œ๋„ํ•ด ๋ณด๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๊ทธ๋ž˜์„œ ์–ด๋–ป๊ฒŒ approximation์„ ํ•˜๋Š”๊ฑฐ๋ƒ๋ฉด, ๊ทธ๋ƒฅ ๊ฐ๊ฐ์˜ ์œ„์น˜์—์„œ ๊ฐ€์žฅ ๋ฐ”๋žŒ์งํ•œ feature๋ฅผ ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ๊ฐ์˜ ์œ„์น˜๋ž€, ๊ทธ subtree์— ํ•ด๋‹นํ•˜๋Š” root๋ฅผ ๊ณ ๋ฅด๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ feature์˜ ๊ฐ’์— ๋”ฐ๋ผ์„œ classify๋ฅผ ํ•ด๋ณด๊ณ , ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š”๊ฐ€๋ฅผ ํ†ตํ•ด ๋” ๋‚˜์€ ๊ฒƒ์„ root์— ์žˆ๋Š” feature๋กœ ์„ ํƒํ•œ๋‹ค. ์ดํ›„ classify๊ฐ€ ์ž˜ ๋˜์ง€ ์•Š์€ subtree์— ๋Œ€ํ•ด์„œ๋งŒ ์–ด๋–ค feature๋ฅผ ์“ฐ๋ฉด ๋” ์ž˜ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์„๊นŒ ํ•˜๋Š”๊ฑฐ๋ฅผ ๋˜‘๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ์‹œ๋„ํ•œ๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ์ง๊ด€์ ์œผ๋กœ๋Š” patron์ด type๋ณด๋‹ค ๋” ์ข‹์€ feature์ธ ๊ฒƒ์„ ์•Œ๊ฒ ๋Š”๋ฐ, ๊ฐ๊ด€์ ์œผ๋กœ๋Š” ์–ด๋–ป๊ฒŒ ํŒ๋‹จํ• ๊นŒ๋ผ๋Š” ์˜๋ฌธ์ด ๋“ค ์ˆ˜ ์žˆ๋‹ค. ๊ทธ์— ๋Œ€ํ•œ ํ•ด๋‹ต์€ ๋‹ค์Œ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด Entropy๋ผ๋Š” ๊ธฐ์ค€์œผ๋กœ ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค.

Untitled 36

entropy๋ผ๊ณ  ํ•˜๋Š” ๊ฒƒ์€ Information Content๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ v1,โ€ฆ,vnv_1, \dots, v_n์€ feature์˜ ๊ฐ’์„ ์˜๋ฏธํ•˜๋ฉฐ, ๊ฐ๊ฐ์˜ ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” dataset์ด ์žˆ์œผ๋ฉด ๊ทธ data๊ฐ€ ์ „์ฒด์—์„œ ํ™•๋ฅ ์ด ์–ผ๋งˆ๋‚˜ ๋˜๋Š”๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์€ pp์ด๋‹ค. ํ™•๋ฅ ์€ ๊ฒฐ๊ตญ ๋ถ„์ˆ˜์˜ ํ˜•ํƒœ(fraction)๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, feature์˜ ๊ฐ’์— ๋”ฐ๋ผ์„œ v1,v2,v3v_1, v_2, v_3๊ฐ€ ์žˆ์œผ๋ฉด ๊ฐ๊ฐ์˜ ๊ฐ’์— ๋”ฐ๋ผ์„œ ์ด๋“ค์˜ fraction์„ ๊ฐ€์ง€๊ณ  โˆ’Plogโก(P)-P \log(P)๋ฅผ ๊ตฌํ•œ ๋‹ค์Œ์— SUMํ•œ ๊ฒƒ์„ Entropy๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

์•ž์„œ ๋ดค๋˜ ๊ทธ๋ฆผ์„ ์˜ˆ๋กœ ๋‹ค์‹œํ•œ๋ฒˆ Entropy์™€ ๊ด€๋ จํ•˜์—ฌ ์‚ดํŽด๋ณด์ž.

Untitled 37

์—ฌ๊ธฐ์„œ ๋ถ„ํ™์ƒ‰ ๋™๊ทธ๋ผ๋ฏธ์˜ ๊ฒฝ์šฐ, 6๊ฐœ ์ค‘์— 2๊ฐœ๊ฐ€ positive, 4๊ฐœ๊ฐ€ negative๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์ด๋•Œ์˜ entropy๋Š” ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ๊ตฌํ•ด์ง„๋‹ค.

Untitled 38

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ some๋ถ€๋ถ„์˜ entropy๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด, ์•„๋ž˜์™€ ๊ฐ™์ด ๊ตฌํ•ด์ง€๋Š”๋ฐ logโก(0/4)\log(0/4)๋Š” ์ •์˜ํ•  ์ˆ˜ ์—†์ง€๋งŒ ์•ž์— ๊ณฑํ•ด์ง„ 0/40/4๋กœ 0์ด ๋œ๋‹ค.

Untitled 39

์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋‘ ๋‹ค ๊ฐ™์€ label์„ ๊ฐ€์ง€๊ณ  ์žˆ์„๋•Œ entropy๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ์Œ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ entropy ํ•จ์ˆ˜๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ทธ๋ ค์ง„๋‹ค.

Untitled 40

๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ํ•œ label, ์ฆ‰ positive๊ฐ€ 1 ํ˜น์€ 0 (์ „์ฒด๊ฐ€ 1๋กœ ๋ณธ ๊ฒฝ์šฐ), ์Œ.. ํ™•๋ฅ ๋กœ ๋ณด๋Š”๊ฒŒ ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. ํ™•๋ฅ  pp๊ฐ€ 1 ํ˜น์€ 0์ผ ๋•Œ, entropy๋Š” 0์ด ๋˜๊ณ , ๋ฐ˜๋Œ€๋กœ 1/21/2์ผ๋•Œ ๊ฐ€์žฅ ๋†’์€ ๊ฐ’์ธ 1์˜ ๊ฐ’์„ ๊ฐ–๋Š”๋‹ค. ์—ฌ๊ธฐ์„œ ํ•˜๊ณ  ์‹ถ์€ ์ด์•ผ๊ธฐ๋Š” ๊ฐ๊ฐ์˜ partion์ด ๊ฐ€์ง€๋Š” ์ด entropy๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด entropy๋ฅผ ์ „์ฒด partion์— ๋Œ€ํ•ด์„œ SUMํ•ด๋ณด๋ฉด (weighted sum) ๊ทธ entropy๊ฐ€ ๊ทธ feature์˜ information์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์–ด๋–ค ์ •๋ณด์˜ ์–‘์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š”๋ฐ, entropy๊ฐ€ ๋‚ฎ์œผ๋ฉด ๋‚ฎ์„์ˆ˜๋ก ์ •๋ณด์˜ ์–‘์ด ๋งŽ๊ณ , ๋ฐ˜๋ฐ˜์ด๋ฉด entropy๊ฐ€ ๊ฐ€์žฅ ํด ๋•Œ์ด๊ณ , ๊ทธ๋•Œ๋Š” ์•„๋ฌด๊ฒƒ๋„ ๋ชจ๋ฅด๋Š” ์ƒํƒœ, ์ฆ‰ positive์ธ์ง€ negative์ธ์ง€ ์•Œ ์ˆ˜ ์—†๋Š” ์ƒํƒœ์ธ ๊ฒƒ์ด๋‹ค.

Untitled 41

์•ž์„œ ์„ค๋ช…ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ feature๋ฅผ ์ •ํ•˜๋ฉด ๊ฐ๊ฐ์˜ subtree์— ํ•ด๋‹นํ•˜๋Š” partion๋“ค์ด ์ƒ๊ธฐ๊ณ  ๊ฐ subtree์— ๋Œ€ํ•ด์„œ ๋˜‘๊ฐ™์€ ์ผ์„ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด subtree์— ํ•ด๋‹นํ•ด์„œ ๋‹ค์‹œ root๋ฅผ ๋ˆ„๊ตฌ๋กœ ์ •ํ• ๊ฑฐ๋ƒ ํ•˜๋ฉด, ์ •๋ณด์˜ ์–‘์ด ๊ฐ€์žฅ ๋งŽ์€ feature๋ฅผ ๊ณ ๋ฅด๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฐ ์‹์œผ๋กœ ๊ณ„์† ๋”ฐ๋ผ๊ฐ€๋ฉด์„œ ๊ฐ€๋ฅด๊ณ ๊ฐ€๋ฅด๋ฉด ์–ธ์  ๊ฐ€๋Š” ๋‹ค ๋‚˜๋ˆŒ ๊ฒƒ์ด๋‹ค. ์ด๊ฒƒ์ด ๊ฒฐ๊ตญ decision learning์˜ ๊ฐœ๋…์ธ ๊ฒƒ์ด๋‹ค. ๋ฌธ์ œ๋Š” ๋„ˆ๋ฌด ์ž˜ ๊ฐ€๋ฅด๋‹ค๋ณด๋‹ˆ overfitting์ด ๋˜๋Š” ์ผ๋“ค์ด ๊ต‰์žฅํžˆ ๋งŽ๋‹ค๋Š” ์ ์ด๋‹ค.

Model: random forest

๊ทธ๋Ÿฐ ๋ถ€๋ถ„์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋„ˆ๋ฌด ๋งŽ์ด ๊ฐ€๋ฅด์ง€ ์•Š๊ฒŒ ์ผ์ •ํ•œ size๊ฐ€ ๋˜๋ฉด ๋” ์ด์ƒ ๋‚˜๋ˆ„์ง€ ์•Š๋Š” ์ด๋Ÿฐ ์ผ๋„ ํ•˜๊ณ  ๊ฐ€๋”์€ ์ด๊ฒŒ ๊ฐˆ๋ž๋˜ ๊ฑธ ๋‹ค์‹œ ๋ญ‰์น˜๋Š” ์ด๋Ÿฐ ํ›„์ฒ˜๋ฆฌ๋„ ํ•˜๊ณ  ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ธฐ์ˆ ๋“ค์ด ๋งŽ์ด ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ decision tree๋Š” ๋น„๊ต์  overfitting์„ ๋งŽ์ด ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ ๊ทธ๊ฒƒ์„ ๊ทน๋ณตํ•˜๊ธฐ์œ„ํ•ด ์‚ฌ๋žŒ๋“ค์ด ๋ญ˜ ์“ฐ๋ƒ๋ฉด ์ด random forest๋ผ๋Š” ๊ฒƒ์„ ์“ด๋‹ค. ๋ฌธ์ž ๊ทธ๋Œ€๋กœ forest์ด๋‹ค. tree๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ, ์ฆ‰ decision tree๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค. decision tree ๋งŒ๋“œ๋Š” ๊ฒŒ ์‹œ๊ฐ„์ด ๋˜๊ฒŒ ๋น ๋ฅด๊ธฐ๋„ ํ•˜๊ณ , ์ƒ๊ฐํ•ด ๋ณด๋ฉด feature๊ฐ€ n๊ฐœ ์žˆ์œผ๋ฉด ๊ทธ์ค‘์— ํ•˜๋‚˜ ๊ณ ๋ฅด๊ณ , ๊ทธ๋‹ค์Œ์— ๋‚˜๋จธ์ง€ ์ค‘์— ๋˜ ํ•˜๋‚˜ ๊ณ ๋ฅด๊ณ , ๊ทธ๋ƒฅ ์ˆœ์„œ๋Œ€๋กœ ๊ฐ€๋Š” ๊ฒƒ์ด๊ณ , ์‚ฌ์‹ค ์ € information entropy๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์€ ๋˜ ๊ฐ„๋‹จํ•˜๊ธฐ๋„ ํ•˜๋‹ค. frequency count๋ฅผ ํ•ด์„œ ๊ทธ๊ฑธ๋กœ ๊ณ„์‚ฐ๋งŒ ํ•˜๋ฉด ๋˜๋ฏ€๋กœ ๊ต‰์žฅํžˆ ๊ฐ„๋‹จํ•˜๊ธฐ ๋•Œ๋ฌธ์— decision tree ๋งŒ๋“œ๋Š”๋ฐ ํ•„์š”ํ•œ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ์ง€ ์•Š๋‹ค. ๊ทธ๋ž˜์„œ ์ด์ œ ์ด forest๋ฅผ ๋งŒ๋“ค์–ด๋„ ์‹œ๊ฐ„์ด ๋ณ„๋กœ ์•ˆ ๊ฑธ๋ฆฌ๋Š” ๊ฒƒ์ด๋‹ค.

Untitled 42

์•ž์— random์ด ๋ถ™๋Š” ์ด์œ ๋Š” ๊ฐ™์€ data๋กœ decision tree๋ฅผ ๋งŒ๋“ค๋ฉด ๋งจ๋‚  ๋˜‘๊ฐ™์€ tree๋งŒ ๋‚˜์˜ฌํ…Œ๋‹ˆ, data๋ฅผ randomํ•˜๊ฒŒ ๊ณจ๋ผ์„œ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋งŽ์€ tree๊ฐ€ ๋งŒ๋“ค์–ด ์ง€๋ฉด, ์–ด๋–ป๊ฒŒ ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋ƒ ํ•˜๋ฉด, majority voting, ์ฆ‰ ๋งŽ์€ ์• ๋“ค์ด ์ฃผ๋Š” ๊ฐ’์œผ๋กœ ๊ทธ๋ƒฅ ์“ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด random forest์˜ ์•„์ฃผ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์ด๋‹ค.

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‹ค์ œ๋กœ overfitting issue๊ฐ€ ๊ต‰์žฅํžˆ ํ•ด์†Œ๊ฐ€ ๋˜๊ณ , ๋˜ ์ด๊ฒŒ ensamble ๋ฐฉ๋ฒ•์˜ ์ผ์ข…์ด๋ผ๊ณ  ๋‹น์—ฐํžˆ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

  • decision์„ ๋น ๋ฅด๊ฒŒ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ๊ณผ overfitting๋˜๋Š” ๊ฒƒ์„ ๊ทน๋ณตํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•์œผ๋กœ์จ random forest๊ฐ€ ๊ต‰์žฅํžˆ ๋งŽ์ด ์“ฐ์ธ๋‹ค. ์ด ๋•Œ๋ฌธ์— classification์˜ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜.

Percolator summary

ํ†ต๊ณ„์ ์œผ๋กœ statisticalํ•œ validation ๋ฐฉ๋ฒ•(ex. target decoy)์€ ์•„๋‹ˆ๋ฉฐ, ๋˜ ์–ด๋–ค model์ด ์žˆ์–ด์„œ ๊ทธ model์˜ parameter๋ฅผ ์ถ”์ •ํ•ด์„œ ์–ด๋–ค FDR(False Discovery Rate)์„ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์•„๋‹ˆ๋‹ค. ์ฐธ ๋ฌ˜ํ•œ ๋ฐฉ๋ฒ•์ธ๋ฐ, ๋‘ ๊ฐœ๋ฅผ mixํ–ˆ๋‹ค๊ณ  ๋ณด๋ฉด ๋  ๊ฒƒ ๊ฐ™๋‹ค. ๋ญ”๊ฐ€ model์ด ์žˆ๋‹ค๊ณ ๋Š” ์ƒ๊ฐ์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ SVM classifier๊ฐ€ model์ธ ๊ฒƒ์ด๋‹ค. ๊ฒฐ๊ตญ์€ ์–ด๋–ค model์ด ์žˆ๊ณ  ๊ทธ model์ด data๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š” weight parameter๋“ค์ด ๋ญ๋ƒ ํ•˜๋Š” ๊ฒƒ์„ ์ฐพ๋Š” ๋ฌธ์ œ ์ด๊ธฐ๋Š” ํ•œ๋ฐ, ๊ทธ๋Ÿฐ๋ฐ ์ด model parameter๋ฅผ ์ž˜ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์“ฐ์ด๋Š” data๋Š” ๋˜ target-decoy์—์„œ ์˜จ ๊ฒƒ์ด๋‹ค. ํ•œ๋ฒˆ iteration์ด ๋๋‚˜๊ณ  ์—ฌ์ „ํžˆ target-decoy ๋น„์Šทํ•œ ๊ฑธ ํ•ด์„œ FDR์„ ์ถ”์ •ํ•ด์„œ ๊ทธ๊ฒƒ์œผ๋กœ label์„ ์“ฐ๋‹ˆ๊นŒ, ๊ฒฐ๊ตญ์€ target decoy ํ•˜๋Š” ์…ˆ์ธ ๊ฒƒ์ด๋‹ค.

๊ทธ๋ž˜์„œ ์ด 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์ ์ ˆํžˆ mixํ•ด์„œ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ ๋‹ค. ์ด๊ฒƒ๋„ ์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด ์ผ์ข…์˜ EM ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋น„์Šทํ•œ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฒฐ๊ตญ์€ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š”๊ฒŒ ์ด๋“ค์˜ label์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, label์„ ๊ตฌํ•˜๋ ค๋ฉด ๋ญ”๊ฐ€ feature๋ฅผ ์ž˜ ํ™œ์šฉํ•ด์„œ ๋‹ค๋ฃฐ์ง€๋ฅผ ์•Œ๋ฉด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฑธ ์ด์šฉํ•ด์„œ ๋งž์ถ”๊ณ  ์ด๋Ÿฐ ๊ณผ์ •์˜ ๋ฐ˜๋ณต์ด๋‹ค๋ณด๋‹ˆ, ์ผ์ข…์˜ EM ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค ๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

์ด ๊ณผ์ •์—์„œ model์˜ ํ•จ์ˆ˜๋Š” linear SVM์ธ๋ฐ ์ด๋ฐ–์—๋„ decision tree, random forest ๋“ฑ์— ๋Œ€ํ•ด์„œ ์ถ”๊ฐ€์ ์œผ๋กœ ์•Œ์•„๋ณด์•˜๋‹ค. percolator์— ๋“ค์–ด๊ฐ€๋Š” feature๋“ค๋„ ์ž˜ ์ •๋ฆฌํ•˜๋ฉด ์ข‹์„ ๋“ฏํ•˜๋‹ค.


๋ณธ ๋‚ด์šฉ์€ ํ•œ์–‘๋Œ€ํ•™๊ต ์ปดํ“จํ„ฐ์†Œํ”„ํŠธ์›จ์–ดํ•™๊ณผ ๋ฐ ์ธ๊ณต์ง€๋Šฅํ•™๊ณผ ๋ฐฑ์€์˜ฅ ๊ต์ˆ˜๋‹˜์˜ ๊ฐ•์˜์ž๋ฃŒ์„ ๋ฐ”ํƒ•์œผ๋กœํ•˜์—ฌ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค!

PS. ์ถ”๊ฐ€ ๋ฌธ์˜์‚ฌํ•ญ ๋ฐ ์งˆ๋ฌธ์€ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฅผ ํ†ตํ•ด ์ €๋„ ๋” ์„ฑ์žฅํ•  ์ˆ˜ ์žˆ์„ํ…Œ๋‹ˆ๊นŒ์š”. :)

Share