[Proteomics] Peptide Identification - De novo sequencing
์ ๋ฒ ์๊ฐ์๋ Peptide identification์ DB Search์ ๋ํด ์์๋ณด์๋ค. Peptide identification์๋ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ์ด๋ฒ ์๊ฐ์๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ธ De novo sequencing์ ๋ํด ์ด์ผ๊ธฐํด๋ณด๋ ค ํ๋ค.
์งง๊ฒ ์ ๋ฆฌํด์ ์ด์ผ๊ธฐ ํด๋ณด์๋ฉด, De novo sequencing์ DB search์ ๋ฌ๋ฆฌ ๋น๊ตํ ๋์์ด ์์ด ์คํ data๋ง ๊ฐ์ง๊ณ ํฉํ์ด๋๋ฅผ ์๋ณํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋น์ ํ์๋ฉด ๋งจ๋ ์ ํค๋ฉํ๋ ๋๋์ด๋๊น?
Tandem mass spectrum
์์ ์๋์ ์ด์ ํฌ์คํ ์์ ์ด์ผ๊ธฐํ์๋ฏ์ด, MS2 spectrum์ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋๋๋ค.
- Database search (SEQUEST)
- de Novo interpretation (SHERENGA)
MS2 spectrum์ ๋ถ์ํ์ฌ ์ฐ๋ฆฌ๋ ์ต์ข ์ ์ผ๋ก ๋ณธ ๋จ๋ฐฑ์ง์ด ์ด๋ค ๋จ๋ฐฑ์ง์ธ์ง ๋ฐํ๊ณ , ๊ทธ ์ํ์ค ์ ๋ณด๋ฅผ ๊ตฌํ๋ ๊ฒ์ ๋ชฉ์ ์ฑ์ ๋๊ณ ์๋ค.

De novo VS Database search
Database search๋ ๋ชจ๋ ๊ฐ๋ฅํ data์์ ๋น๊ต๋ฅผ ํตํด ์ด๋ค ๋จ๋ฐฑ์ง์ด ๋ฐํ๋์๋๊ฐ์ ๊ด๋ จ๋ ์์ด์ ๋ฐํ๋๋ฐ ์ง์คํ์๋ค๋ฉด, De novo๋ Graph๋ฅผ ๋ง๋ค๊ณ ๊ทธ์ ๊ด๋ จํ ์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค์ด ํด๊ฒฐํ๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก non-guess path ์ฐพ๊ธฐ๋ผ๊ณ ์ด์ผ๊ธฐ ํ ์ ์์ผ๋ฉฐ, ์ด ๊ณผ์ ์์ DP(Dynamic Programming) ๋ฅผ ์ด์ฉํ๊ฒ ๋๋ค.

Basic principle of de novo sequencing
De novo sequencing์ main idea๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Use the mass difference between two fragment ions to calculate the mass of an amino acid residue on the peptide backbone.
- E.g. mass difference between and = 129 ~> residue E.
์ฆ, ๋ fragment ion ์ฌ์ด์ mass ์ฐจ์ด๋ฅผ ์ด์ฉํ์ฌ peptide backbone์ ์์นํ ์๋ฏธ๋ ธ์ฐ residue์ mass๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ์ด์จ์ ๊ณ ๋ คํ๋ฉด, ๋ํ๋์ง ์๋ ๊ฒ๋ค๋ ๋๋ค์ ์กด์ฌํ๋ค.

De novo sequencing workflow
De novo sequencing์ workflow๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ spectrum graph๋ฅผ ๋ง๋ค๊ณ , ์ดํ ์ต์ ์ ๊ฒฝ๋ก๋ฅผ ์ฐพ์ sequence๋ฅผ ์ถ์ ํ๊ฒ ๋๋ค.

์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ์ฒ์ ์ถ๋ฐ ์ง์ ์ mass๊ฐ 0์ผ ๋๋ก, ๋ง์ง๋ง ์ง์ ์ peptide mass ์ผ ๋๋ก ์ง์ ํด ์ค๋ค. ์ดํ DP๋ฅผ ํ์ฉํ์ฌ ์ ์๊ฐ ๋์, ์ต์ ์ path๋ฅผ ์ฐพ์ sequence๋ฅผ ๊ณ์ฐํ๋ค.
์ด๋ฌํ ์ต์ ์ path๋ฅผ ์ฐพ๋ ๋ถ๋ถ์ ์์ด ๊ณ ๋ คํด์ผํ๋ ์ฌํญ์ Fragment peak ๋ค๋ฃจ๊ธฐ์ด๋ค. ๋ค์๊ณผ ๊ฐ์ด 4๊ฐ์ ์๋ฏธ๋ ธ์ฐ์ด ์๋ ์คํํธ๋ผ์ด ์ฃผ์ด์ก๋ค๊ณ ๊ฐ์ ํด๋ณด์
De novo sequencing

์ด๋์ b-ions๋ neutral mass (=mass of Amino Acid) + proton์ ํตํด ๊ณ์ฐ์ด ๊ฐ๋ฅํ๋ฉฐ, y-ions์ neutral mass + 19๋ฅผ ํตํด ๊ณ์ฐ๋๋ค. b-ion์์ 88๊ณผ 145๋ ๊ฐ๊ฐ ๊ณผ ๋ฅผ, y-ions์์ 147๊ณผ 276์ ๊ฐ๊ฐ ๊ณผ ์ mass๋ฅผ ์๋ฏธํ๋ค. b์ y ์ด์จ์ด semetricํ์ง ์๊ธฐ ๋๋ฌธ์ ์์ ์คํํธ๋ผ์ KEGS๊ฐ ์๋ SGEK๋ก ํ์ ์ด ๊ฐ๋ฅํ๋ค. ์ฆ, ๊ฒฐ๊ตญ b์ด์จ๊ณผ y์ด์จ์ ๊ตฌ๋ณ์ด ๋๋ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์ y์ด์จ์ 19๊ฐ ๋ํ์ฌ์ง ์ด์ ๋ฅผ ์ดํด๋ณด์๋ฉด ์๋์ ์๋ฏธ๋ ธ์ฐ์ด ์ R์ด ๋ถ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ฐ, y์ด์จ์ ๊ฒฝ์ฐ ๋ฅผ ๊ฐ์ผ๋ฉฐ ๊ฐ ๋ถ์ ํํ์ด๊ธฐ ๋๋ฌธ์ ์ด ์ mass ๊ฐ์ ๋ํ์ฌ ์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ ์๋ฏธ๋ ธ์ฐ S์ ์๋ mass๋ 87์ด์ง๋ง ์ด์จ์ ํํ์ด๊ธฐ ๋๋ฌธ์ 1์ ๋ํด์ ๊ณ์ฐํ๋ ๊ฒ๊ณผ ๊ฐ์ ์ด์น์ด๋ค.
์ฌ์ค ์ด์ ๊ฐ์ด b์ด์จ๊ณผ y์ด์จ์ด ์์ฌ์ ๊ฒ์ถ๋๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๊ฐ ์์ด์ ํ์ ํ๋๋ฐ ์์ด ์ด๋ ค์์ ๊ฒช์ ์ ์๊ณ , ์ง๋ ์ฐจ์ด๋ก๋ง ์ด๋ฅผ ํ๋ณํ๋ ๊ณผ์ ์์ ๋ํ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ค. ๊ทธ๋ฌ๋ b์ด์จ๊ณผ y์ด์จ์ด ๊ฒฐ๊ตญ์ ๊ตฌ๋ณ๋๊ธฐ ๋๋ฌธ์ ์ ์ฒด๋ฅผ ๋๊ณ ์ฐ๋ฆฌ๊ฐ ์ด ์น๊ตฌ๊ฐ ์ด๋ ๋ฐฉํฅ์ ์์ด์ด ๋ง๋ ๊ฒ์ธ์ง ๊ฒฐ์ ํ ์ ์๋ค. ์ฆ, ์์ด์์ ๋์ฌ ์ ์๋ ๋ชจ๋ ์ด์จ๋ค์ด ๊ด์ฐฐ๋์ง ์๋๋ผ๋, ์์ด์ ์๋ฒฝํ๊ฒ ๋ณต์ํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ์ข ์ข ์๋ค.
์ด์ ๊ป b์ด์จ๊ณผ y์ด์จ์ด ์์ฌ์ ๋์ค๊ธฐ ๋๋ฌธ์ ํด์์ ์์ด ์ด๋ ค์์ด ์กด์ฌํ ์ ์๋ค๋ ์ด์ผ๊ธฐ๋ฅผ ํ๋ค. ๊ทธ๋ ๋ค๋ฉด ํ ์ชฝ์ ์ด์จ๋ง ๋์จ๋ค๋ฉด ์ด๋ ํ ๊น?

์ฌ๊ธฐ์ prefix ions๋? N-terminal ์ด์จ๋ค๋ก a, b, c์ด์จ๋ค์ ํต์นญํ๋ค. ์ด์ ํฌ์คํ ์์ ์ด์ ๊ด๋ จํ ์ด์ผ๊ธฐ๋ฅผ ๋ค๋ฃจ์์๋ค.
์ฆ, ์ ์ฌ์ง์์์ prefix ions์ b-ion๋ค๋ก S, SG, SGE, SGEK๋ฅผ ์๋ก ๋ค ์ ์๋ค. ์ด์ ๊ฐ์ด ํ ์ชฝ์ผ๋ก ๋ค ๋ชฐ๋ฉด ์ข๊ฒ ๋๋ฐ, ์ฒ์์๋ ๋ชจ๋ฅธ๋ค. b์ y ์ด์จ๋ง ๊ฒ์ถ๋๋ค๊ณ ํ๋๋ผ๋, ์์ฌ ์์ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ ์คํํธ๋ผ ์์ ์ด ์น๊ตฌ๋ค์ ์ด๋ป๊ฒ ๊ตฌ๋ณํ๋๋๊ฐ ์ค์ํ์ง๋ง. ๊ฒฐ๋ก ์ ์ผ๋ก ๊ตฌ๋ณ ํ ์ ์๋ค. ๋ฐ๋ผ์ ์ด ๋ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ ๋ค ๋๊ณ ์ฒ๋ฆฌ๋ฅผ ํ๋ ์ผ์ด ์ค์ํ๋ค.
forbidden pairs
์ด๋ forbidden pairs๋ผ๋ ๊ฐ๋ ์ ์ฃผ๋ชฉํด์ผ ํ๋ค. ๊ฒฝ๋ก๋ฅผ ์ฐพ์ ๋, ํ ๊ฒฝ๋ก์์, ์ฆ ํ peak์ 2๊ฐ์ node ๋์์ ์ฌ์ฉ ๋ถ๊ฐํ๋ค๋ ์ ์ด๋ค. ๋ค์ ์ฌ์ง๊ณผ ๋์์ ๋ณด๋ฉด์ ์ดํดํด๋ณด์.

๋ค์๊ณผ ๊ฐ์ ์คํํธ๋ผ์์ 4๊ฐ์ fragment ions peak์ด ๊ด์ฐฐ๋์๋๋ฐ ๊ทธ๊ฒ ์ด๋ ๊ฒ ์ ๋ถ prefix ion๋ง ๋์ค๋ฉด sequencing์ด ๊ต์ฅํ ๊ฐ๋จํด์ง๋ค. ๋ญ๊ฐ ํ ์ชฝ์ผ๋ก ๋ชฐ๋ฉด ์ข๊ฒ ๋ค! ์ด๋ฐ ์๊ฐ์ ํ๋ ๊ฒ์ด๋ค.
์ด์ ๊ฐ์ด ํ ์ชฝ์ผ๋ก ๋ชฐ๊ณ ์ถ์๋ฐ ํ ์ชฝ์ผ๋ก ๋ชฐ ์ ์๋ ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ fragment ion์ด b ion์ผ ๊ฒฝ์ฐ, y ion์ผ ๊ฒฝ์ฐ ๋ ๊ฐ์ง๋ฅผ ๋ค ๊ณ ๋ ฅํด์ ์คํํธ๋ผ ๊ทธ๋ํ์๋ค๊ฐ ๋ ธ๋๋ฅผ ๋ง๋ค์ด ๊ทธ๋ํ๋ฅผ ๋ง๋ค ๋ ์คํํธ๋ผ ๊ทธ๋ํ์ ๋ ธ๋๋ ๊ฒฐ๊ตญ ์ง๋ ์คํํธ๋ผ์ ์๋ fragment ion peak์ ํด๋นํ๋ ์ ๊ฐ node๊ฐ ๋๋ค. ๊ทธ๋ฌ๋ ํ๋๋ง ๋ง๋๋ ๊ฒ์ด ์๋ ๋ ธ๋๋ฅผ b ์ด์จ์ผ ๊ฒฝ์ฐ์ ๋ ธ๋, y ์ด์จ์ผ ๊ฒฝ์ฐ์ ๋ ธ๋ ์ด๋ ๊ฒ 2๊ฐ๋ฅผ ๋ง๋๋ ๊ฒ์ด๋ค.
์ด๋ ํ peak์ ๊ฐ์ง๊ณ ๋ ๊ฐ์ node๋ฅผ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ ์ด๋ค ์กฐ๊ฑด์ด ๊ฑธ๋ ค์ผ ํ๋๋ฉด, ์ด ๋ ๊ฐ์ ๋ ธ๋๋ ๋์์ ์ฌ์ฉ๋๋ฉด ์๋๋ ๊ฒ์ด๋ค. ์ฆ b ion์ด๋ฉด์ ๋์์ y ion์ด๋ฉด ์๋๋ ๊ฒ์ด๋ค. ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๊ด์ฐฎ๋ค. ์๋ฅผ ๋ค์ด ์ด์ชฝ์ผ๋ก ๋ณด๋ฉด ์ด ์น๊ตฌ๊ฐ b ion์ฒ๋ผ ๋ณด์ด๊ณ , ์ ์ชฝ์์ ๋ณด๋ฉด y ion์ฒ๋ผ ๋ณด์ด๋ ๊ฑด ๊ด์ฐฎ์ ๊ฒ์ด๋ค. ๋จ, ์ด ์น๊ตฌ๋ฅผ ํด์ํจ์ ์์ด ๋์์ b ion์ด๊ณ y ion์ธ ๊ฒ์ฒ๋ผ ์๊ฐํด์ ์์ด์ ํด์ํ๋ ๊ฒ์ ์๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ forbidden pairs๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ด์ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๊ฒ ๊ทธ๋ฌ๋ฉด ๋ ์ค์ ์ด๋ ๊ฒ ๋ง๋๋ ํ๋ ๊ฑฐ๋ ์ด์ ๋ฌธ์ ๋ฅผ ๋ค ํ๊ณ ๋์ ๊ฒฝ๋ก๊ฐ ๊ฒฐ์ ๋๋ฉด, ์๊ฐ b ion์ด์๋ค ํน์ ์๊ฐ y ion์ด์๋ค ๊ฐ ๋ง์ง๋ง์ ๊ฒฐ์ ๋๋ ๊ฒ์ด๋ค. ๋ฌธ์ ๋ฅผ ํ๊ณ ๋์์ผ ๋น๋ก์ ๊ฒฐ์ ์ด ๋๋ ๊ฒ์ด๊ณ , ํธ๋ ๊ณผ์ ์์๋ ๊ณ์ ๋ชจ๋ฅธ ์ฑ๋ก ์ฌ๋ฌ ๊ฐ๋ฅ์ฑ์ ๋๊ณ ๊ณ ๋ ค๋ฅผ ํ๋ ๊ฒ์ด๊ณ , ๊ทธ ์ค์ ๊ฐ์ฅ ์ด๋ค ์๋ฏธ์์ ์ข๋ค๊ณ ์๊ฐ๋๋ ์ ๋ฅผ ๊ณ ๋ฅด๋ ๋ฌธ์ ์ธ ๊ฒ์ด๋ค.
Computing possible prefixes
๋ค์ ์ฒ์์ ๋ดค๋ ๋ฌธ์ ๋ก ๋์๊ฐ์ ์ดํด๋ณด๋ฉด, b ion์ prefix์ ํด๋นํ๋ ์์ด์ ์ง๋, neutral mass(charge๋ฅผ ๊ณ ๋ คํ์ง ์๋, N-terminal๊ณผ C-terminal์ ํด๋นํ์ง ์๋ ์ง๋)์ 1๋งํผ ๋ํด์ค๋ค. (๊ฐ๋จํ๊ฒ ์ค๋ช ํ๊ธฐ ์ํด์ integer๋ก, ์ ์๋ก ๋ฐ๊ฟ์ ์ด์ผ๊ธฐ ํ๋ ๊ฒ์ด๋ค. proton์ ๊ทธ๋ฅ ์ง๋์ด 1์ด๋ค ์ด๋ ๊ฒ ์๊ฐํ๋ ๊ฒ์ด๋ค.) ๋ํ y ion์ ์ง๋์ surffix์ ํด๋นํ๋ ์๋ฏธ๋ ธ์ฐ๋ค์ neutral mass์๋ค๊ฐ 19๋งํผ ๋ํ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ prefix์ surfix๋ฅผ ๋ํ๋ฉด ๊ทธ๊ฒ ์ ์ฒด peptide์ neutral mass๊ฐ ๋๋ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ (์๋ ๊ทธ๋ฆผ์ Ion Offsets) Surffix๋ ์ ์ฒด ์ง๋์์ Prefix ๋งํผ์ ์ง๋์ ๋นผ์ค ๊ฐ์ด๋ค๋ผ๊ณ ์ฐ๋ฆฌ๋ ์๊ฐํ ์ ์๋ ๊ฒ์ด๋ค.

์๋ฅผ ๋ค์ด์ 88์ด๋ผ๋ ์ง๋์ ๋ณด์๋ค๋ฉด, ์ด ์น๊ตฌ๊ฐ b์ผ์ง y์ผ์ง ๋ชจ๋ฅธ๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ์ง๊ธ ์ ์ฒด peptide์ ์ง๋์ ์๊ณ ์๋ ์ํ์ด๋ค. ์๋ํ๋ฉด MS1์์ ๊ณจ๋ผ์ ์๊ธฐ ๋๋ฌธ์, ์ธ์ ๋ ์ง precursor mass๋ ์๋ ๊ฒ์ด๋ค. ์๋๋ precursor์ m/z ๊ฐ์ ์๋๋ฐ, charge๋ฅผ ๊ตฌํ ์ ์๊ธฐ ๋๋ฌธ์ precursor์ mass ๋ํ ๊ตฌํ ์ ์๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ ์ฒด ์ง๋์ ์๊ณ 88์ด๋ผ๋ ๊ฐ์ ๋ณด๋ฉด, ์ด ์น๊ตฌ๊ฐ b ion์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ด๊ฑฐ์ ํด๋นํ๋ prefix์ residue mass๋ 87์ด๋ค. 1๋งํผ ์๋ ๋ํด์ผ b ion์ด ๋๋ ๊ฑฐ๋๊น ์ด๊ฒ์ ํด๋นํ๋ prefix residue๋ 87์ธ ๊ฒ์ด๋ค.
์ด ์น๊ตฌ๊ฐ ๋ฐ๋๋ก y ion์ด๋ผ๊ณ ์๊ฐํด๋ณด์. ์ฐ๋ฆฌ๋ surffix mass์ ๊ด์ฌ์๋ ๊ฒ์ด ์๋ ๊ทธ๊ฑฐ์ ๋์๋๋ prefix mass๋ก ๋ฐ๊พธ๊ณ ์ถ์ ๊ฒ์ด๋ค. ์ฆ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ค ํ ์ชฝ์ผ๋ก ๋ฐ๊ฟ ๊ฒ์ด๋ค. ์คํํธ๋ผ ๊ทธ๋ํ์ ๋ค์ด๊ฐ๋ ๋ ธ๋๋ค์ ๋ค ํ ํ์ ์ ion๋ค ์ธ ๊ฒ์ด๋ค. prefix ion๋ค์ ์ง๋๋ค์ ๋ํ๋ด๋๊ฒ ๊ทธ๋ํ์ ๋ ธ๋๋ก ๋ค์ด๊ฐ ๊ฒ์ด๋ค.
prefixํ๊ณ surffix๊ฐ ์์ฌ ์์ผ๋ฉด ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์๋ฅผ b ion์ผ๋ก ๋ดค์ ๋์ prefix mass, y ion์ด๋ผ๊ณ ์๊ฐํ์ ๋์ ๊ทธ๊ฑฐ์ ๋์๋๋ ์ ์ชฝ prefix mass๋ฅผ ์ธก์ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๊ฒ ํด์ผ ์ ์ฒด์ ์ผ๋ก ์ฒ๋ฆฌ๊ฐ ๊ฐ๋จํ ๊ฒ์ด๋ค. ๊ทธ๋์ ์๋ฅผ ๋ค์ด์ ๋ด๊ฐ ๊ด์ฐฐํ ๊ฒ ํด๋น peak์ธ๋ฐ, ์๊ฐ surffix๋ค ๋ผ๊ณ ์๊ฐํ๋ฉด ์ด๊ฑฐ์ ๋์ํ๋ ๋๋จธ์ง prefix mass๋ฅผ ๊ตฌํด์ spectrum ๊ทธ๋ํ์ ๋ฃ๊ณ ์ถ์ ๊ฒ์ด๋ค. ๊ทธ๋์ผ ์ ์ฒด์ ์ผ๋ก ์์ด์ ๊ตฌํ๋ ๊ฒ ์ฌ์์ง๋ค.
์ด์ ๊ฐ์ด ๊ฐ๋ฅํ ๋ชจ๋ ์ด์จ๋ค์ prefix residue๋ฅผ Prefix Residue Masses(PRM) ์ด๋ผ๊ณ ํ๋ค.

์์ ๊ทธ๋ฆผ์ ํตํด ์ดํด๋ณด๋ฉด, ์ฐ์ ์ ์ฒด peptide์ mass๋ 401์ด๋ค. ๋ํ ์ฌ๊ธฐ์ ๋ํ ๋ ์ ์๋, ๊ด์ธก๋ 4๊ฐ์ peak์ด y์ด์จ์ผ ๋์ b ์ด์จ์ผ ๋๋ฅผ ๋ชจ๋ ๊ตฌํด๋ณด๋ฉด, (8๊ฐ์ง ์ค ๊ฒน์น๋ 2๊ฐ์ง๋ฅผ ์ ์ธ) ์ด 6๊ฐ์ง์ mass๋ค์ด ๋ํ๋๊ฒ ๋๋ค. ์ด ๋ค์ด ์๋ฏธ๋ ธ์ฐ์ ์ง๋์ ํด๋นํ๋๊ฐ๋ฅผ ๊ณ์ฐํ๋ค. ๊ณ์ฐ์ ํด์ ๊ทธ ์๋ฏธ๋ ธ์ฐ์ ์ง๋ํ๋ ๊ฒฝ์ฐ์๋ง ๊ทธ ๋ ธ๋๋ค์ edge๋ฅผ ํตํด ์ฐ๊ฒฐํ๊ฒ ๋๋ค. prefix์ค ๊ทนํ ์ผ๋ถ๋ง ์ด์ ๋ง๊ฒ ๋ํ๋๋ฉฐ, ์ฌ๋ฐ๋ฅผ ๊ฒฝ์ฐ ์๋ฏธ๋ ธ์ฐ ๋งํผ์ ์ง๋ ์ฐจ์ด๋ฅผ ๊ฐ์ง๊ณ ๋ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ํด๋นํ๋ ๋ ธ๋๊ฐ ๊ทธ๋ํ์ ๋ํ๋๊ฒ ๋๋ค. 87๊ณผ 144์ ์ฐจ์ด๋ 57Da์ผ๋ก ์ด๋ ์๋ฏธ๋ ธ์ฐ ์ค์ ์ ์ผ ์์ ๊ธ๋ผ์ด์ (G)์ ํด๋นํ๋ฉด์ ์ฌ๊ธฐ์ edge๊ฐ ๋ค์ด๊ฐ๊ฒ ๋๋ ๊ฒ์ด๋ค.
Spectral graph
์ค์ ํ์ค์ ์ผ๋ก de novo sequencing ์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค ๋๋ ์๋ฏธ๋
ธ์ฐ ํ๊ฐ ํ ๊ฐ, ๊ทธ ์ด๋์์ ๊ฐ ๋ค ์ฐ๊ฒฐ์ด ๋ ๋งํผ์ ์ ๋ณด๊ฐ ์คํํธ๋ผ ์์ ๋ค ์์ด์ผ ํ๋ค. ํ๋๋ผ๋ ๋น ์ง๋ฉด edge ์ฐ๊ฒฐ์ด ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ค์ ๋ก ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ ๋๋ ์ด edge๋ฅผ ์ธ์ ์ถ๊ฐํ๋๋ฉด, ์๋ฏธ๋
ธ์ฐ ํ ๊ฐ์ ์ง๋์ด ์๋๋ผ ๋ ๊ฐ๊น์ง๋ ๋น์ฐํ ํ์ฉํ๊ณ , ๊ทธ๋๋ด์ผ ์ข
๋ฅ๋ 400๊ฐ ์ ๋์ด๊ธฐ ๋๋ฌธ์ ๊ฐ๋์ 3๊ฐ ์ด๋ฐ ๊ฒ๋ ๊ณ ๋ คํ๋ค. ์ฆ ์ผ๋ง ๋งํผ์ tolerance๋ฅผ ๊ฐ์ง ๊ฒ์ด๋, ์ค๊ฐ์ ๋น ์ง๋ prefix์ residue mass๋ฅผ ํ ๊ฐ ํ์ฉํ ๊ฒ์ธ๊ฐ ๋ ๊ฐ ํ์ฉํ ๊ฒ์ธ๊ฐ ์ด๋ฐ ๊ฒ๋ค์ด ์ด์ ์๊ณ ๋ฆฌ์ฆ์ complexity๋ฅผ ๋์ด๋ ํ๋์ ์์ธ์ผ๋ก ์์ฉํ๋ค.

์ด์ ๊ป ์์์ ์ด์ผ๊ธฐํ ๊ฒ ์ฒ๋ผ prefix์ residue mass๋ฅผ ๋ค ๊ตฌํ๋ฉด ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ ธ๋๋ค์ด ์ด๋ ๊ฒ ์์ฑ์ด ๋๋ค. ์ฒซ ๋ ธ๋๋ 0์ด๊ณ ๋ง์ง๋ง ๋ ธ๋๋ precursor์ mass์ ํด๋นํ๋ ๊ฐ์ ๊ฐ๋๋ค. ์ด ๋ ๋ ธ๋๋ ํน๋ณํ ๋ค์ด๊ฐ๋ ๊ฒ์ด๋ฉฐ, ์์์ ๋ณด์๋ ํ์์ ์ ์ ๋ 6๊ฐ์ ๊ฐ๋ค์ด ํ๋์์ผ๋ก ํ์๋ ๋ ธ๋๋ค๋ก ํ์๋๋ค.
๋ ๋
ธ๋๋ค ์ฌ์ด์ ์ง๋ ์ฐจ์ด๋ฅผ ํตํด ์๋ฏธ๋
ธ์ฐ์ ์ ์ถํ๊ฒ ๋๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ง๋ ์ฐจ์ด์ ํด๋นํ๋ฉด edge๋ฅผ ๋ฃ๋ ๊ฒ์ด๋ค. ์ด๋ฐ ์์ผ๋ก ๊ฒฝ๋ก 0์์ ์์ํด์ precursor mass์ ํด๋นํ๋ ๋ง์ง๋ง ๊ฑฐ์์ ๋๋๋ ๊ฒฝ๋ก๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๊ทธ ๊ฒฝ๋ก์ ํด๋นํ๋ ์ด ์๋ฏธ๋
ธ์ฐ๋ค์ด ๊ฒฐ๊ตญ ์์ด์ด ๋๊ณ ๊ทธ๊ฒ ์ด ์คํํธ๋ผ์ ๋ํ ํด์์ด ๋๋ ๊ฒ์ด๋ค. ์ด๋ ์์ ์ ์์ด ์ด์ผ๊ธฐํ forbidden pair์ ์ ๋ฌด๋ฅผ ํ์ธํด์ผ ํ๋ฏ๋ก ๊น๋ค๋ก์ด ์กฐ๊ฑด์ด๋ฉด์ ๋ ๊ทธ๋์ ์ ๋ฆฌํ ์กฐ๊ฑด์ผ๋ก ์์ฉํ๊ฒ ๋๋ค.

Re-defining de novo interpretation
๋ฌธ์ ๋ฅผ ๋ค์ ์ ์ํ์๋ฉด, ์์ ๋
ธ๋์ ๋ง์ง๋ง ๋
ธ๋์ 0๊ณผ (precursor mass)๊ฐ ๋ค์ด๊ฐ๋ฉฐ ์คํํธ๋ผ์ ๊ฐ๊ฐ์ ํฝ์ ์ต๋ ํ๋์ ๋
ธ๋์๋ง ๊ธฐ์ฌํด์ผ ํ๋ค. ์ฆ, ๋งจ ๋ง์ง๋ง ํด์์๋ ๊ฐ๊ฐ์ ํฝ์ด ๋ง๋ ๋
ธ๋๋ค ์ค์ ํ๋๋ง, ์ต๋ ํ๋๋ง ๋ค์ด๊ฐ ์ ์๋ค. ์ธ์ ํ ๋
ธ๋๋ค์ edge๋ฅผ ํตํด ์ฐ๊ฒฐ๋์ด ์์ด์ผ ํ๋ฉฐ, ๊ทธ ๋ค์ ์ด์ ์ฌ๋ฌ ๊ฐ์ ๊ฒฝ๋ก ์ค์ ๊ฐ์ฅ ์ข์ ๊ฒ์ ๊ณ ๋ฅผ ์ ์๋ ์ ์ ํ ๋ชฉ์ ํจ์๊ฐ ์์ด์ผํ๋ค. ์ด ๋ชฉ์ ํจ์๊ฐ ๋ฌด์์ธ์ง๋ ๋์ค์ ์๊ฐํ๊ณ , ์ผ๋จ ์๊ณ ๋ฆฌ์ฆ์ ๋จผ์ ์ดํดํ๊ณ ๊ทธ ๋ค์์ ๋ชฉ์ ํจ์๋ฅผ ์ด๋ป๊ฒ ์ ํด์ผ ํ๋์ง ์ด์ผ๊ธฐ ํ๋๋ก ํ์.

Two problems
์ ์ฒด ์คํํธ๋ผ ๊ทธ๋ํ์์ ์ค์ b-ion, y-ion์ ํด๋นํ๋ ์ ๋ค์ ๊ทนํ ์ผ๋ถ์ด๊ณ , ๊ทธ ๋ค์์ ์ฐ๋ฆฌ๊ฐ forbidden pair๋ฅผ ํผํ๋ ๊ฒฝ๋ก๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ฅผ ํ์ด์ผ๋๋ ๊ฑด๋ฐ ์ด๋ฅผ NP-hard๋ผ๊ณ ๋ถ๋ฅธ๋ค. NP-hard๋, ์ฐ๋ฆฌ๊ฐ Pํ๊ณ , NP๋ ์๊ณ , (NP ์ค์ ์ ์ผ ์ด๋ ค์ด ๊ฒ = NP conflict๋ผ๊ณ ํ๋ฉฐ, NP conflict๋ NP-hard ์ค์ ์ ์ผ ์ฌ์ด ๋ฌธ์ ๋ค์ ํด๋น) ์ผ๋ฐ์ ์ผ๋ก NP-conflict ๋ณด๋ค ๋ ์ด๋ ต๋ค๊ณ ์๊ฐ๋๋ ๋ฌธ์ (์ด๋ ต๋ค = ๋ณต์ก๋๊ฐ ๋๋ค)๋ฅผ ์๋ฏธํ๋ค.

๊ทธ๋ฐ๋ฐ ์ด์ ํ๊ฐ์ง ์ฌ๋ฏธ์๋ ํน์ง์ด b-ion, ๊ทธ๋ฌ๋๊น prefix์ surffix, (์ด๋ ๊ฒ ์ง์ ์๊ฐํ ์ ์๋ค.) b-ion๊ณผ ๊ทธ๊ฒ์ ๋์๋๋ ์ด์ชฝ surffix์ y-ion, ์ ์ฒด peptide์ ๊ธธ์ด๊ฐ N์ด๋ผ๊ณ ์ด์ผ๊ธฐ ํ๋ฉด, ๊ฐ ์์ผ๋ฉด, ๊ฐ ์๋ค๊ณ ๋ณผ ์ ์๋ค.
์ฆ ์์ผ๋ก ์กด์ฌ๋ฅผ ํ๋ค๋ ๊ฒ์ด๋ค. ๋์ด complementaryํ๋ฏ๋ก ๋์ด ํฉ์น๋ฉด ์ ์ฒด๊ฐ ๋๊ณ , ์๋ก ํ ์ชฝ์ ์๋ฉด ๋๋จธ์ง๋ฅผ ์ ์ ์๋ ์ด๋ฐ ๊ด๊ณ์ธ ๊ฒ์ด๋ค.

๋ง์ฝ์ ๊ฐ ๋ณด๋ค ์์ผ๋ฉด, ๋ ๋ฐ๋์ ๋ณด๋ค ํฌ๋ค. ํฉํด์ ์ ์ฒด M์ด ๊ฐ์๋ฐ, ํ ์ชฝ์ด ํฌ๋ฉด ๋ฐ๋์ชฝ์ ์์์ผ ํ๋ค. ๊ทธ๋ฆผ์ผ๋ก ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์ด pair๊ฐ b-y pair๋ผ๊ณ ์๊ฐ์ ํ๊ณ , ๊ทธ ์น๊ตฌ๋ค์ด ์ด๋ ๊ฒ ์ ์ ํตํด ์ฐ๊ฒฐ์ ํด๋๊ณ ์๋, ๋์ด complementary pair๋ค ์ด๋ ๊ฒ ์ด์ผ๊ธฐ ํ๋ ๊ฒ์ด๋ค. (0๊ณผ precursor mass M๋ complementary pair์ด๋ค.)
์๋ ๊ทธ๋ฆผ์ surffix mass๋ฅผ prefix mass๋ก ๋ฐ๊ฟ๋์ ๋ํ๋ฉด precursor mass๊ฐ ๋์ง๋ ์์ง๋ง, surffix๋ผ๋ฉด ๋ํ๋ฉด M์ด ๋๋ค. ์ด์ ๊ฐ์ด ์์ผ๋ก ์กด์ฌํ๋๋ฐ ๊ทธ๋ฆผ์ ๊ทธ๋ ค๋ณด๋ฉด ์๋์ ๊ฐ์ด ์๋ก ๊ต์ฐจํ๋ ์ผ์ ๋ฐ์ํ์ง ์๋๋ค. ๋ฐ๋ผ์ forbidden node pair๋ค์ ์๊ฐํด๋ณด๋ฉด ์ด ์น๊ตฌ๋ค์ ์ ๋๋ก ์๋ก interceptํ์ง ์๊ณ ๋ ์ด๋ ๊ฒ ํฌํจ๊ด๊ณ๋ก ์กด์ฌํ๋ค.

์ด๋ฌํ ์กฐ๊ฑด์ ์ฐ๋ฆฌ๊ฐ DP(Dynamic Programing)๋ฅผ ํด์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด ๋ณผ ์ ์๋ค๋ ๊ฒ ๋ค์๋ถํฐ ์ด์ผ๊ธฐํ ๋ด์ฉ์ด๋ค.
The forbidden pairs method
๊ฒฐ๊ตญ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ forbidden pair๋ฅผ ํผํ๋ path์ค์ ์ด๋ค ๊ฐ์ maximizeํ๋ path๋ฅผ ๊ตฌํ ๊ฒ ์ธ๋ฐ, ์ด๋ค ๊ฐ์ maximize ํ ๊ฑฐ๋ ํ๋ ๊ฒ์ ์ผ๋จ์ ๊ทธ๋ฅ ๋๊ตฐ๊ฐ๊ฐ ์คฌ๋ค๊ณ ์น๊ณ , ๊ทธ ์ค ๊ฐ์ ๋ธํ๋ผ๊ณ ์นญํ์. ๋ธํ๋ผ๋ ํจ์๊ฐ ์์ด์ ๊ทธ ๋ธํ๋ node์ ์ฃผ์ด์ง๋ ๊ฐ์ด๋ค. (node = ion peak = PRM)
PRM์ด ์ฃผ์ด์ง๋ฉด ๋๋ ๋ช ์ ์ง๋ฆฌ๋ผ๊ณ ์ฃผ๋ ์ด๋ ํ ํจ์๊ฐ ์๋ค๊ณ ์น์. ๊ทธ ํจ์๊ฐ ๋ํ๋ด๋ ๊ฒ์ ๊ทธ PRM์ด ์ค์ ๋ก ์ฌ๋ฐ๋ฅธ ๊ฒ์ด๊ณ ๊ฑ๊ฐ ์ฌ๋ฐ๋ฅด๋ค๋ ๊ฑฐ๋ ํด์์ ํฌํจ๋๋ ๊ฒ์ด๋ค. ์์ด์ ์ค๋ช ํ๋ ํด์์ ํฌํจ๋๋ ๊ฒ์ ์ด์ผ๊ธฐํ๋ ์ ๋ณด๋ฅผ ๋ํ๋ด๋ ์ด๋ ํ ํจ์๊ฐ ์๊ณ , ๊ทธ ํจ์๊ฐ ์ด๋ฏธ ์ฐ๋ฆฌ์๊ฒ ์ฃผ์ด์ ธ ์๋ ๊ฒ์ด๋ค. ์๊ณ ๋ฆฌ์ฆ๋ง ๋จผ์ ์ดํด๋ณด์.

์ผ๋จ ๊ทธ๋ํ ์์ ์๋ ๋ชจ๋ PRM๋ค์ ๋ค sortingํ๋ค. ๊ทธ๋ฌ๋ฉด ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์์๋๋ก ๋์ด์ด ๋๋ค. ๊ทธ ๋ค์์ ์ด์ notation ์์ผ๋ก ์ด๋ค ๊ทธ๋ํ์ ์๋ node u์ ๋ํด์ ๊ทธ๊ฑฐ์ ๋์๋๋ ์ ์ชฝ ๋๋จธ์ง forbidden pair์, u์ ๋์ํ๋ ์ง์ด ๋๋ ์น๊ตฌ๋ฅผ ๋ผ๊ณ ์ฐ๋ ๊ฒ์ด๋ค.(์ด์ ๊ฐ์ด ์์ ๋ง๋๋ ๊ฒ์ด๋ค.)
๊ทธ ๋ค์, ์ด์ ์ด ๋ ธ๋์ ์ค์ mass๊ฐ ์ผ๋ง๋ ๋ผ๊ณ ๋ํ๋ด๋ ๊ฒ์ด m(s)์ด๋ค. ์ด๊ฒ์ ๋จ์ง notation์ ๋ถ๊ณผํ๋ค. ๊ฐ๊ฐ์ ๋ ธ๋๋ ์ด๋ค prefix residue mass๋ฅผ ๋ํ๋ด๊ณ ์๋์ง ๋น์ฐํ ์ ํ ์๋ค.
D.P. for forbidden pairs
์ด ์ดํ ์ฐ๋ฆฌ๊ฐ ํ ๊ฑฐ๋, ๋ชจ๋ ๊ฐ๋ฅํ prefix residue mass์ ํด๋นํ๋ ์ด node pair๋ค์ ๋ํด์ ๋ญ๊ฐ๋ฅผ ๊ณ์ฐํ ๊ฒ์ด๋ค. ๊ทธ node๋ค์ ๋ํด์ ๋ด๊ฐ ์ด๋ค pair๋ง ๊ณ์ฐ์ ํ ๊ฑฐ๋๋ฉด, ์ด pair u์ v๋ผ๊ณ ํ๋ ๋๊ฐ์ ํ ์์ node๋ฅผ ์๊ฐํ ๋, u๋ ์ ์ฒด peptide ์ง๋์ ์ ๋ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ๊ณ , v๋ ์ ๋ฐ๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ๊ฒฝ์ฐ๋ง ๋ด๊ฐ ๊ณ ๋ คํ๊ฒ ๋ค ์ด ๋ง์ด๋ค. ์ด๊ฑด ์ด์ ์ด forbidden pair๊ฐ ๋ฅผ ์ค์ฌ์ผ๋ก ๋ ์์ชฝ์ผ๋ก ์๋ค๋ ์ด ์ฑ์ง์ ์ ํ์ฉํ๊ณ ์ถ์ด์ ์ด๋ ๊ฒ ํ๋ ๊ฒ์ด๋ค.
๋ค์ด๋๋ฏน ํ๋ก๊ทธ๋๋ฐ(DP, Dynamic Programing)์ ๊ฒฐ๊ตญ ์ด๋ค ํ ์ด๋ธ์ ์ฑ์ฐ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ฑ์ธ ํ ์ด๋ธ์ ์ด๋ฆ์ S์ด๋ค. ๊ทธ S๋ผ๊ณ ํ๋ ํ ์ด๋ธ์ ์ฑ์ธ ๊ฒ์ด๊ณ , ๊ทธ ํ ์ด๋ธ ์์์ ์ฐ๋ฆฌ๊ฐ ์ด๋ค ๊ฐ์ฅ ์ข์ ๊ฐ์ ๊ฐ๋ ๊ฒ์ ์ฐพ๋ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํ๋ ๊ฑด๋ฐ ๊ทธ S๋ผ๊ณ ํ๋ ํ ์ด๋ธ์ด ๋ํ๋ด๋ ๊ฑฐ๋(์ฌ๊ธฐ์๋ 2-dimensionํ ์ํ), PRM node 2๊ฐ(ํ ์ชฝ์ u, ๋ค๋ฅธ ํ ์ชฝ์ v)๋ฅผ ๋๊ณ ๋ ์ฌ์ด์ ์ด๋ค ๊ฒฝ๋ก๋ฅผ ์๊ฐํ๋ ๊ฒ์ด๋ค. ์ด๋ DP๊ฐ ๋ํ๋ด๋ path๋ uํ๊ณ v๋ฅผ ํฌํจํ๋, forbidden pair๋ฅผ ์ ํผํ๋ path์ด๋ค. ์ ํผํ๋ path๋ฅผ validํ path๋ก ๋ณผ ์ ์์ผ๋ฉฐ, validํ path ์ค์ ๊ฐ์ฅ ์ข์ score๋ฅผ ์ด ํ ์ด๋ธ s๊ฐ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด ํ ์ด๋ธ์ ๊ณ์ ์ ๋ฐ์ดํธ ๋๋ค.
๊ณ์ ์ ๋ฐ์ดํธ ๋๋ ์ด์ ๋ ์ง๊ธ๊น์ง ๋ณธ ๊ฑฐ๋ณด๋ค ๋ ์ข์ ๊ฒ ๋์ค๋ฉด ์ด์ ์ ๋ฐ์ดํธ๊ฐ ๋๋ ๊ฒ์ด๋ค. DP๋ฅผ ์ฑ์ฐ๋ ๋์์๋ path๊ฐ ์ด๋ป๊ฒ ๋ ์ง ๋ชจ๋ฅธ๋ค. 0์์ u๋ก, v์์ M์ผ๋ก ๊ฐ๋ฉด์ ํ ์ด๋ธ์ ๋ค ์ฑ์ฐ๊ณ , ๊ฒฐ๊ตญ u์ v๋ฅผ ํต๊ณผํด์ ์์์์ ๋๊น์ง ๊ฐ๋ ์ด forbidden pair๋ฅผ ์ ํผํ๋ ์ด๋ฐ ๊ฒฝ๋ก์ ์ฌ๋ฌ ๊ฐ๋ฅ์ฑ ์ค์ ๊ฐ์ฅ ์ข์ ๊ฒ์ ์๊ฐ ๊ธฐ๋กํ๊ณ ์๋ค.(์ด๋ u์ v๋ ์์ ์ด์ผ๊ธฐํ ๊ฒ ์ฒ๋ผ, u๋ ์ ์ผ์ชฝ, v๋ ์ ์ค๋ฅธ์ชฝ์์ ๋ฐ์ง๊ฒ ๋๋ค.)
์ด ๊ณ์ฐ์ด ์ ๋๋ก ์ด๋ฃจ์ด์ก๋ค๋ฉด, ์ด๋ฐ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋ชจ๋ u์ v์ ๋ํด์ ์๋ฅผ ๋ค ๊ณ์ฐํ ์ ์๋ค๋ฉด ์ค์ ๋ก ๊ณ์ฐํ ์ ์๋ค๋ฉด, ๊ทธ๊ฑธ๋ก ์ฐ๋ฆฌ๊ฐ ๋ต์ ์ป์ ์ ์๋๊ฒ ๋ง๋๊ฐ ์๊ฐํด๋ณด์.

DP๋ฅผ ๋คํ๊ณ ๋ฌ๋๋, ์คํ์ ๋ง์ง๋ง๊น์ง ํ๊ณ ๋ฌ๋๋ ์ด ํ ์ด๋ธ์ ์ด ์์น์ ์ ํ์๋ค ๊ทธ๋ฌ๋ฉด ์ํ๋ ๋ต์ ๊ตฌํ ๊ฒ์ด๋ค. ๊ฒฝ๋ก๋ฅผ ๋ณต์ํ๋ ๊ฒ๋ ์ค์ํ๋ฐ, ์ด๋ป๊ฒ ๋์ค์ ๊ฒฝ๋ก๋ฅผ ๋ณต์ํ๋๊ฐ ๊ทธ ๋ฐฉ๋ฒ์ ๋ ผํ๊ธฐ ์ํด์๋ ๊ฒฐ๊ตญ ๋ฐ์์ ๋ถํฐ ์ฑ์๋ค์ด๊ฐ์ผ ํ๋ค.

The complete algorithm
์ด๋ฅผ ์๊ณ ๋ฆฌ์ฆ ์ ์ธ ์ธก๋ฉด์์ ์ดํด๋ณด๋ฉด, case๋ฅผ ๋ ๊ฐ์ง๋ก ๋๋ ์ ์ ๊ทผํ๊ฒ ๋๋ค. ์ฐ์ ๋ชจ๋ u์ ๋ํด์ 0๋ถํฐ ์์ํด์ ๊น์ง ์ฆ๊ฐํ๋ฉด์ ์งํ์ ํ๊ณ , ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐ๋์ชฝ์์ v์ ๋ํด์ m๋ถํฐ ๊น์ง ๊ฐ์ํ๋ฉด์ ์งํ์ ํ๋ค. ์ด๋ฌํ ๋ ๊ฐ์ง ์ผ์ด์ค์ ๋ํด์ forbidden pair๊น์ง ๊ณ ๋ คํ์ฌ u์ ๋ฅผ ๋น๊ตํ์ฌ edge๋ฅผ ์ฐ๊ฒฐํ๊ณ , ์ ์ ์ขํ๋๊ฐ์ ์ต์ ์ path๋ฅผ ์ฐพ๊ฒ๋๋ค.

De novo : second issue
node์ score๋ฅผ ์ด๋ป๊ฒ ์ ํ ๊ฒ์ธ๊ฐ์ ๋ํด ์ด์ผ๊ธฐ๋ฅผ ํด๋ณด์. ์์ ๋ณธ DP๋ bํ๊ณ y์ด์จ๋ง ์๋ค๋ฉด ์ฐธ ์ข๊ฒ ์ง๋ง, ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค. spectrum์๋ ๋ค๋ฅธ type์ ion๋ค๋ ๋ง์ด ์กด์ฌํ๋ค. (e.g, a-ion, neutral loss, isotopic, etc) ์ด๋ฌํ ๊ฒ๋ค์ ์ ํ์ฉํด์ node์ score๋ฅผ ์ ์ ํ๊ณ ์ถ๋ค๋ ๊ฒ์ด ๋ณธ ๋ฌธ์ ์ ํฌ๋ง์ฌํญ์ด๋ค.

weighting nodes in spectrum graph
๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ์กฐ๊ธ ๋ ์ฝ๊ฒ DP๋ฅผ ์ด์ฉํ์ฌ ์กฐ๊ธ ๋ ์ข์ ๊ฐ์ ์ ํ ์ ์๋ ๊ทผ๊ฑฐ๋ก ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์๋ฅผ ๋ค ์ ์๋ค.

์ฒซ ๋ฒ์งธ๋ก intensity. ์ฆ, ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ๋ฌด์กฐ๊ฑด ๋ค ์ข์ ๊ฒ์ธ๊ฐ์ ๋ํด ์๊ฐํด๋ด์ผ ํ๋ค. ํฌ๊ธฐ๊ฐ ํฌ๋ค๊ณ ๋ฌด์กฐ๊ฑด ์ข์ ๊ฒ์ ์๋๋ค. ์์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด, x์ถ์ด intensity rank์ด๋ค. ๊ฒ์ ์ ์ด b-ion์, ํฐ ์ ์ด y-ion์ ๋ํ๋ด๋๋ฐ, 1๋ฑ์ผ๋ก ๋์ค๋ ๊ฒ์ด y-ion์ด 70%, b-ion์ด ํ 10%, ์ด๋ ๊ฒ ๋์จ๋ค. ์ฆ, intensity rank์์ 1~3๋ฑ๊ณผ ๊ฐ์ด rank๊ฐ ๋์ ๋ถ๋ถ์ y-ion์ด, rank๊ฐ ๋ฎ์ ๋ถ๋ถ์์๋ b-ion์ด ๋ ๋ง์ %๋ฅผ ์ฐจ์งํ๊ณ ์๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ํ๋ ๊ทธ๋ํ๋ ๊ฐ์๋ฐ ์ฅ๋น๊ฐ ๋ค๋ฅธ case์ด๋ค. (์ฅ๋น๊ฐ ๋ค๋ฅด๋ค = fragment ๋ฐฉ๋ฒ์ด ๋ค๋ฅด๋ค.) ๊ทธ๋ฌ๋, ๋น์ทํ ๊ฒฝํฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ ๋ฆฌํ์๋ฉด, intensity๋ฅผ ํตํด ์ด๊ฒ b-ion์ผ์ง, y-ion์ผ์ง ๊ทธ ๊ฐ๋ฅ์ฑ์ ์ฐ๋ฆฌ๊ฐ ์กฐ๊ธ ๋ ์ ์ ์ ์๋ค๋ ์ ์ ์ด์ผ๊ธฐํ๋ ๊ฒ์ด๋ค.
๋ค์์ผ๋ก support ions์ ๋ํด ์ด์ผ๊ธฐํด๋ณด์. ์์ ์ธ๊ธํ๋ฏ์ด, b๋ y-ion์ด ๋ ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์์ด๋ฒ๋ ค์ ๋ง๋ค์ด์ง ์ด์จ์ Neutral loss ion์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด๋ฌํ ์ด์จ๋ค์ด ๊ด์ฐฐ๋๋ ๊ฒฝ์ฐ ๋ํ ๋ง์๋ฐ, ๊ฒฐ๊ตญ fragmentation์ ์งํํ๋ ค๋ฉด ์๋์ง๋ฅผ ์ฃผ์ด์ผ ํ๋๋ฐ (์ด๋ ์๋์ง๋ ์ถฉ๋์๋์ง, ํน์ ๋ค๋ฅธ ์๋์ง), ์๋์ง๋ฅผ ํตํด ionํ๊ฐ ๋ ๋ค์, ๋ ๋จ์ ์๋์ง๊ฐ ์ํฅ์ ๋ฏธ์ณ, neutral loss ion์ด ๋ฐ์ํ๊ฒ ๋๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ด์จ๋ค์ด ํด์์ด ์ ๋์๋ค๋ฉด, ๋ค์๊ณผ ๊ฐ์ spectrum์ ๋ณด์ธ๋ค.

์์ spectrum์ ๋ณด๋ฉด, N-term, charge 1์ ๊ฒฝ์ฐ ํน์ ๊ฐ ๋ง์ด ๋น ์ง ๋ชจ์ต์ ๋ณด์ธ๋ค. ์ด์ฒ๋ผ, ์๊ธฐ ์์ ๊ณผ ์ฐ๊ด๋ ๋ค๋ฅธ ๋ ๋ง์ neutral loss๊ฐ ์๋ peak๋ค์ด ๋ง์ด ๊ด์ฐฐ์ด ๋๋ ๊ฒ์ด๋ค. ๊ทธ ์์์ด b๋ y๋์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ๋ํ๋๋ฉฐ, ๋ง์ฐฌ๊ฐ์ง๋ก, fragment ion์ charge๊ฐ +1์ด๋ +2์ด๋์ ๋ฐ๋ผ์๋ ๋ ๋ค๋ฅด๊ฒ ๋ํ๋๋ค.
๋ง์ง๋ง์ผ๋ก isotopic์ ๋ํด ์ด์ผ๊ธฐํด๋ณด๋ฉด, ๋ง์ฐฌ๊ฐ์ง๋ก ์์ ์ด์ผ๊ธฐํ๋ฏ์ด, precursor์ charge๋ฅผ ๊ฒฐ์ ํ ์ ์๋ ์ด์ ๋ isotopic์ ํด๋นํ๋ peak๋ค(+1, +2) ์ฌ์ด์ ๊ฐ๊ฒฉ์ ํตํด ๊ฒฐ์ ํ ์ ์๋ค. fragment ion์์๋ isotopic์ด ๋ ๋ณด์ด์ง ์๋๋ฐ, ๊ทธ ์ด์ ๋ ๊ด์ธก๋๋ fragment ion์ ์ง๋์ด ๋งค์ฐ ์๊ธฐ ๋๋ฌธ์ 1%์ isotopic์ด ์กด์ฌํ ํ๋ฅ ์ด ๊ทธ๋ ๊ฒ ํฌ์ง ์๋ ๊ฒ์ด๋ค(๋ฝํด์ผ 2~3๊ฐ ์๋ ์ ๋). ๊ทผ๋ฐ ์ด์ fragment ion์ ์ง๋์ด ์ปค์ง๋ฉด isotopic๋ค๋ ์ ๋ณด์ด๊ฒ ๋๋ค. ๋ฐ๋ผ์ isotopic ๋ํ noise๋ก ์์ฉํ ์ ์๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ตญ ์ 3๊ฐ์ factor๋ค์ด ์ด ion์ด b๋ y๋๋ฅผ ๊ฒฐ์ ํ๋ ๋ธํํจ์๋ฅผ ์ ํ ๋ ์ข์ ๊ทผ๊ฑฐ๋ค์ด ๋๋ ๊ฒ์ด๋ค.
A simple example of a Bayesian scoring model
ํ๋์ ๋ฐฉ๋ฒ๋ก ์ ์ดํด๋ณด์. Pep Novo์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. Bayesian network๋ฅผ ์ด์ฉํด์ scoringํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด๋ค. ์ฆ ํ์ต์ ํตํด์ scoring model์ ๋ง๋๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ๊ณ ๋ ค๋๋ intensity๋ ์ ๋ฐํ ๊ฐ์ด ์๋, ๊ทธ๋ฅ 1. ํฌ๋ 2. ์๋, 3. ์์ ๊ด์ฐฐ์ด ์๋์๋๊ฐ ์ ๋๋ก๋ง ๋๋ ์ ธ์๋ค.

์ด๋ค ์ง๋ ๊ฐ์ ๋ฃ๊ณ , ์คํํธ๋ผ ๊ทธ๋ํ์์ prefix residue mass์ ํด๋นํ๋ ๋ ธ๋์ ์ฑ์ง์ ๊ฐ์ ธ์ผ ๋ธํ๋ฅผ ๊ฒฐ์ ํ ์ ์๋ค. ๊ทธ ์ฑ์ง์ ์๋์ ๊ฐ์ด ํํํด๋ณผ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ supporting peak๋ค, ์์ ์ด์ผ๊ธฐํ neutral loss๋ isotopic์ด๋ ๋ค๋ฅธ ์ฌ๋ฌ๊ฐ์ง ์ฑ์ง๋ค, ์ ์ด์ฉํด์ ์๋์ ์์์์ m, prefix residue mass์ ํด๋นํ๋ ์๊ฐ ์ค์ ๋ก ์๋ฏธ ์๋ fragment์ผ ๊ฐ๋ฅ์ฑ (=b ๋๋ y์ด์จ ์ผ ๊ฐ๋ฅ์ฑ)์ด ์ผ๋ง๋ํ๋ ๊ฒ์ ์ถ์ ํด๋ณด๊ณ ์ถ์ ๊ฒ์ด๋ค. ์ด ํ๋ฅ ์ ๊ตฌํ๊ธฐ ์ํด์ ์ด์ Bayesian theorem์ ์ฌ์ฉํ๋ฉด ๊ตฌํ ์ ์๋ค.
Bayesian Network๋ ๋ณดํต ๊ทธ ํ๋ฅ ๋ณ์๋ค ์ฌ์ด์ ์ธ๊ณผ๊ด๊ณ๊ฐ ์๋ ๊ฒฝ์ฐ์ ์ข
์ข
์ฌ์ฉํ๋ค. ์ธ๊ณผ๊ด๊ณ์ด๊ธฐ ๋๋ฌธ์ ์ฑ๋ฆฝํ๋ ์ด๋ค conditional independent๋ฅผ ๊ฐ์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์ธ๋ฐ, ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ bayesian network๋ฅผ ์๋ฌด๋ ๊ฒ๋ ๊ฐ๋ค๊ฐ ์ฐ๋ฉด ์ฝ๊ฐ ๋ง์ด ์๋๋ค. ํน๋ณํ ์ด์ ํ๋ฅ ๋ณ์๋ค ์ฌ์ด์ ์ธ๊ณผ๊ด๊ณ๊ฐ ์์ ๋ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ฏธ์๋ค.

์๋ฅผ ๋ค์ด ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด a์์ b๋ก ๊ฐ๋ edge๊ฐ ์๋ค ๊ทธ๋ฌ๋ฉด์ a๊ฐ ์์ธ์ด ๋๊ณ , b๊ฐ ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋๋ ์ด๋ฐ ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๋ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋ค. ๋ฌผ๋ก ์์ ๊ทธ๋ฆผ์ด ์ํฐ๋ฆฌ์ธ ์ด์ ๋, a-ion์ด ๊ด์ฐฐ๋๋ฉด b-ion์ด ๊ด์ฐฐ๋๋ค๋ ์ด๋ฐ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋๊ฑฐ๋ผ ์ค์ ๋ก๋ ๋ง์ด ์๋๋ค. ๊ทธ๋ฌ๋ ์ ๊ทธ๋ฆผ์ ์ ์ด๋์๋ฏ์ด, beyesian network์์ ์ฌ์ฉ๋๋ ์ํฉ์ ๊ฐ๊ฐ์ ๊ทธ๋ํ๋ฅผ ์ด์ฉํด์ ์ด๋ค ํ๋ฅ ๊ฐ์ ์ถ์ํ๋ ๊ฑด๋ฐ ๊ฐ๊ฐ์ node๋ ํ๋ฅ ๋ณ์์ด๊ณ , node๋ค ์ฌ์ด์ edge๊ฐ ์๋ค๋ ๊ฒ์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค. edge์ ์์์ ์์ธ์ด๊ณ ๋์ ์ ํด๋นํ๋ node๋ ๊ฒฐ๊ณผ๊ฐ ๋๋ ์ด๋ฐ ๊ด๊ณ๊ฐ ์ด๋ค graph์ topology๊ฐ ๋๋ค. ๊ทธ ๋ค์์ ๊ทธ๋ํ์ ๊ฐ๊ฐ์ node๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ๋ถ์ด ์์ด์ผ ํ๋ค.
์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ตฌํด์ผํ๋๋ฐ, ์ด๋ป๊ฒ ๊ตฌ์ฑ์ด ๋์ด ์๋๋ฉด ์ ๊ทธ๋ฆผ์ y๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ณด๋ฉด node์ ๋ค์ด์ค๋ edge๊ฐ 2๊ฐ์ด๋ค. ์ฆ, y๋ b์ ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ค ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค. ๋ํ ๊ฐ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ํด์ ์ด์ต์ ํ๋ฅ ์ด ์ด๋ป๊ฒ ๋๋์ง๋ฅผ ์ด ๋ ธ๋๋ค์ ์ ์ด๋์ผ ํ๋ค. ๊ทธ๋์ Bayesian network์์ ์ด ๊ตฌ์ฑ ์์ฒด๋ pose and effect๋ฅผ ๋ํ๋ด๋ ์ด๋ค ๋คํธ์ํฌ์๋ค๊ฐ ๊ฐ๊ฐ์ node์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์์ด์ผ ๊ฑฐ๊ธฐ์ ์๋ง์ ์ถ๋ก ์ ํ ์ ์๋ ๊ฒ์ด๋ค.
๋ํ ์ด๋ฌํ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ค์ chain rule์ ์ฑ๋ฆฝํ๊ธฐ ๋๋ฌธ์ ์ง์ ์ ์ธ ์์ธ์ด ์์ ๋๋ ๋
๋ฆฝ์ ์ธ case๋ ๋ ๋ ค๋ฒ๋ ค๋ ๋๋ค. ์ฆ ์ธ๊ณผ๊ด๊ณ์ด๊ธฐ ๋๋ฌธ์ ์ฑ๋ฆฝํ๋ ๋
๋ฆฝ์ ์กฐ๊ฑด๋ค์ ํ์ฉํ์ฌ ์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ฐ๋จํ ํ ์ ์๋ค. ์ด ๊ณผ์ ์์ indirectํ ๊ฒ๋ค๋ ๊ด์ฐฐ๋ ์ ์์ผ๋ ๊ทธ๋ฅ ๋ฌด์ํด๋ ๊ด์ฐฎ๋ค๋ ๊ฒ์ด ๊ธฐ๋ณธ์ ์ธ ๊ณ์ฐ์ด๋ค.
PepNovo : Weighting nodes
์์ ์ค๋ช ํ bayesian network๋ฅผ ์ด์ฉํด์ scoring์ ์งํํ ๊ฒ์ด PepNovo์ ๊ธฐ๋ณธ ๊ฐ๋ ์ด๋ค. ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด nodeํ๋๋ง ๋ณธ ๊ฒ์ด ์๋, ์ธ์ ํ ์๋ฏธ๋ ธ์ฐ๋ ๊ฐ์ด ๋ณธ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์ ๊ฐ๋ ์๋ฏธ๋ ธ์ฐ์ N-terminal๊ณผ C-terminal์ ์๋ฏธ๋ ธ์ฐ์ด ๋ฌด์์ด๋์ ๋ฐ๋ผ์๋ ์ํฅ์ ๋ฐ์ ๊ฒ์ด๋ค. ๋ํ ์ด node๊ฐ b-ion์ธ์ง, y-ion์ธ์ง, b์ด๋ฉด intensity๊ฐ ํฌ๋ ์๋ ์์ ๊ด์ฐฐ์ด ์๋๋๊ฐ, b-ion์ intensity์ ์ํด์ neutral loss์ intensity๊ฐ ๊ฒฐ์ ์ด ๋ ๊บผ๊ณ ๋ฑ๋ฑ ์ด๋ ๊ฒ ์ธ๊ณผ๊ด๊ณ๊ฐ ์กด์ฌํ๋ค. ์ด๋ฌํ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ฐํ์ผ๋ก ๋๋ฆ ๊ทธ๋ํ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ด ๊ทธ๋ํ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ๋ ธ๋์๋ค๊ฐ ์์ ๋งํ conditional ํ๋ฅ ์ ๊ตฌํด์ ๋ถ์๋๋ฐ ์ด๋ฏธ ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ์ผ์ผํ ์งํํ ๊ฒ์ด๊ณ , ์ด๋ฌํ score๋ ์๋์ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ฏ์ด log ratio๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๊ตฌํด์ก๋ค.
๋๋ค์ผ๋ก ๊ทธ ์ ๋๊ฐ ๋์ฌ ํ๋ฅ ์ ์ผ๋ง๋๋ฅผ ๊ตฌํด์ ๋๋ค ๋๋น ๊ด์ฐฐ๋ ์ ๊ฐ ์ด ์ ๋ ํฌ๊ธฐ๋ก ๋์ฌ ํ๋ฅ ์ด ์ผ๋ง์ธ์ง๋ฅผ ๊ตฌํ๋ ๊ฒ์ด๋ค. ์ด๋ m์ prefix residue mass์ด๊ณ , S๊ฐ ์คํํธ๋ผ ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ ์ฃผ์ด์ก์ ๋ ์ด intensity๊ฐ ์๋ ํฌ๋ ์๋ ์ด๊ฑฐ๋ฅผ ๋ํ๋ด๋ ๊ฐ์ธ ๊ฒ์ด๋ค.

๊ฐ๋ ์ ์ผ๋ก๋ ํฌ๊ฒ ์ด๋ ค์ด ๊ฒ์ ์๋๋ฉฐ, ๊ทธ๋ฅ ์๊ฐํ๋๋ฐ ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐ๋๋ค.
Ion types and probabilities
ํฉํ์ด๋ P๋ ํน์ ํ ์คํํธ๋ผ์ด ์๋๊ณ , ์คํํธ๋ผ์ด ์๋ ํ peak์ด๋ค. ๋๋ฌธ์ S๋ก ์ด๊ฒ ์คํํธ๋ผ์ด๊ณ , ์๋ฌธ์๋ก ์ด s๊ฐ peak์ ์๋ฏธํ๋ค. ํ๋์ fragment ion peak๋ค์ธ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด ์ด peptide๊ฐ ์ธก์ ํ peak์ ์์ฐํ ํ๋ฅ ์ด, s์ ๋ํ ํ๋ฅ ์ด๋ผ๊ณ ํ๋ฉด, ๊ฒฐ๊ตญ์ ์ด ์ ์ฒด peptide๊ฐ ์ด ์คํํธ๋ผ์ ๋ง๋ค์์ ํ๋ฅ ์ ๊ฒฐ๊ตญ ๊ทธ ์คํํธ๋ผ ์์ ์๋ ๊ฐ๊ฐ์ peak์ ์ด ํฉํ์ด๋๊ฐ ์์ฐํ์ ํ๋ฅ ๋ค์ ํฉ์ผ๋ก ๋ํ๋ผ ์ ์๋ค๊ณ ์๊ฐํ๋ ๊ฒ์ด๋ค.
์ด๊ฒ ์ด์ ๊ฐ๊ฐ์ ํฝ์ด ๋์ค๋ ์ด์ ๊ฐ ๋ค independentํ ๋ ์ด๋ ๊ฒ ๋ํ๋ ๊ฒ์ด๊ณ , ๊ต์ฅํ ํฐ ๊ฐ์ ์ด๋ค. ๊ทธ๋ ์ง ์์ ๊ฑฐ๋ผ๋ ์ฌ์ค์ ์ฐ๋ฆฌ๋ ์ด๋ฏธ ์๊ณ ์๋ค. ์ด๋ ํ ์ชฝ์ด ion์ด ๋๋ฉด ๋๋จธ์ง ํ ์ชฝ์ ์คํ๋ ค ion์ด ์ ์๋๋ค. ์๋ก ์๊ด๊ด๊ณ๊ฐ ์๋๋ฐ correlation์ด ์ ํ ์๋ ๊ฑฐ๋ก ์๊ฐํ๊ณ ์์ ํ independentํ๋ค๊ณ ๊ฐ์ ํ๊ณ ์ง๊ธ ํ๋ฅ ์ ์ด์ผ๊ธฐํ๊ณ ์๋๋ฐ, ์ค์ ๊ทธ๋ ์ง ์๋ค๋ ๊ฒ์ด๋ค.
์์ ์ด์ผ๊ธฐํ ๊ฒ์ฒ๋ผ neutral loss ion ๊ฐ์ ์ ๋ค์ ๋ค๋ฅธ b๋ y ion์ด ๋์ค์ง ์์ ๋๋ ๊ฑฐ์ ๊ด์ฐฐ์ด ์๋๋ ์ด๋ฐ ์๊ด๊ด๊ณ๊ฐ ํ๋ฆผ์์ด ์๋๋ฐ ๊ทธ๋ฐ๊ฑธ ๋ค ๋ฌด์ํ๊ณ ๊ทธ๋ฅ ๋ ๋ฆฝ์ด๋ค, ๊ฐ๊ฐ์ peak๋ค์ด ์ด peptide๋ก ๋์ฌ ํ๋ฅ ์ ๊ทธ๋ฅ ๊ทธ ํฝ ํ๋์๋ง ๊ด๋ จ์ด ์์ง ์คํํธ๋ผ์ ๋๋จธ์ง ํฝํ๊ณ ๋ ์๊ด์ด ์๋ค ๋ผ๋ ๊ฐ์ ์ ํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๊ฐ์ ๋ค์ ์ฌ์ค ํ์ค๊ณผ๋ ๊ต์ฅ์ด ๋จผ ์ด์ผ๊ธฐ์ด์ง๋ง, ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๊ทธ๋ฐ ๊ฐ์ ์ ํ์ง ์์ผ๋ฉด ๊ณ์ฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ทธ๋์ ์ด๋ ๊ฒ ์ด์ผ๊ธฐ๋ฅผ ํ๋ ๊ฒ์ด๋ค.. ๊ทธ๋๋ง ์ด๋ฐ ๊ณผ์ ์ ์ข ํ์ด์, ์ด ์น๊ตฌ๋ค์ด ๋ญ๊ฐ ์๊ด๊ด๊ณ๊ฐ ์๋๋ฐ, ๊ทธ๊ฑธ ์ต๋ํ ๊ณ ๋ คํด๋ณด๊ฒ ๋ค๊ณ ํ๋๊ฒ ์์์ ์ด์ผ๊ธฐํ PepNovo ๋ชจ๋ธ์ด๋ค.

์์ ํ ๋ ๋ฆฝ์ด ์๋๊ณ ์ฌ์ค์ neutral loss๋ ์ด๋ฐ supporting peak์ด๋ b๋ y ion์ฌ์ด์๋ ์๋นํ ์๊ด ๊ด๊ณ๊ฐ ์์ผ๋ฉฐ, ์์ธ๊ณผ ๊ฒฐ๊ณผ๊ฐ ๋๋ ๊ด๊ณ๊ฐ ์๋ค ์ด๋ฐ ์ด์ผ๊ธฐ๋ฅผ ํ๊ณ ์๋๊ฑด๋ฐ, ์ด๊ฑฐ์ ๋นํด ์ฌ์ค ์ด ๋ค์์ ์ด์ผ๊ธฐํ๋ ๋ชจ๋ธ์ ์๋นํ ๋จ์ํ ํด๋์ ๋ชจ๋ธ์ธ ๊ฒ์ด๋ค.
formulation์ ํ๊ธฐ ์ํด์ ์ด๋ ๊ฒ ๋ชจ๋ธ๋ง์ ํ๋ ๊ฑด๋ฐ ion type์ ๋ธํ๋ก ํ์ํ ์ ์๋ค. b ion์ neutral mass์ 1์ ๋ํ ๊ฒ์ด๋ฉฐ, y ion์ neutral mass์ 19๋ฅผ ๋ํ๋ค๊ณ ์ด์ผ๊ธฐ ํ ์ ์๋ค. ์ฆ, ์์ ion type์ ์ด๋ฐ ์ซ์๋ก ๋ํ๋ผ ์ ์๋๋ก ํ ๊ฒ์ด๋ค.(๋ธํ ์ด์จ)
์ด์ ๋ธํ ์ด์จ๋ค์ด ๋์ฌ ํ๋ฅ ์ ๊ฐ๊ฐ ์๋ฅผ ๋ค์ด์ q๋ผ๊ณ ๋ถ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์. ๋ธํ 1์ด ๋์ฌ ํ๋ฅ ์ , ๋ธํ 2๊ฐ ๋์ฌ ํ๋ฅ ์ , ์ด๋ ๊ฒ ์จ๋ฒ๋ฉด, ์ด ๋ธํ ์ด์จ๋ค์ด ๋์ค๋ ์ด ion type๋ค๋ ๋ ๋ฆฝ์ด๋ค ๋ผ๊ณ ๊ฐ์ ํ๋ ๊ฒ์ด๋ค.

์์์ ํ ๊ฑฐ๋ ๊ฐ๋ค. ๊ทธ๋ฅ ๊ฐ ์ด์จ์ด ๋์ฌ ํ๋ฃฐ์ ๋
๋ฆฝ์ด๋ผ๊ณ ์๊ฐ์ ํ์. peak์ด ์๋ ๊ฒฝ์ฐ, ์๋ ๊ฒฝ์ฐ๋ก ๋๋ ์ ๋ณด๋ ๊ฒ์ด๋ค. ๊ทธ ์์น์ peak์ด ์ค์ ์ด peptide๋ก๋ถํฐ ๋ง๋ค์ด์ก์ ํ๋ฅ ์ ์์ผ๋ฉด $q$, ์์ผ๋ฉด $1-q$๋ผ๊ณ ํ๋ ๊ฒ์ด๋ค.
์ด ๊ณผ์ ์ ์ฌ์ ํ node scoring์ ํ๊ณ ์๋ ๊ณผ์ ์ด๋ค.

์ด๋ค ํน์ ํ ์์น๋ผ๊ณ ํ๋๊ฑฐ๋ ์ด์ node์ ํด๋นํ๋ mass๋ฅผ ์ด์ผ๊ธฐํ๋ ๊ฒ์ด๋ฉฐ, ๊ทธ node์ ๊ด๋ จ๋ ion type๋ค์ด ์ฌ๋ฌ๊ฐ ์์ ์ ์์ผ๋ฉฐ, supporting peak์ ์ด์ฉํด์ ํน์ ํ ๋ ธ๋๊ฐ ์ผ๋ง๋ ๋ฏฟ์ ๋งํ๋๋ฅผ ๊ณ์ฐํ๋๊ฒ ๋ชฉํ์ด๋ค. node์ score๋ฅผ ๊ตฌํ๋ ๊ฒ ๋ชฉํ์ด๊ณ , node์ score๋ฅผ ๊ตฌํ ๋ ๋ค๋ฅธ ion type๋ค node์ ๊ด๋ จ๋ ๋ค๋ฅธ ion type๋ค์ ํฌ๊ธฐ๊ฐ ๋ญ๊ฐ ๋ ์ง๋ ๋ชจ๋ฅด๊ฒ ์ง๋ง ๊ทธ๊ฑธ ์ด์ฉํด์ ์ด node๊ฐ ์ค์ ๋ก peptide๋ก ๋ถํฐ ์์ฐ๋์์๊ฑฐ๋๋ฅผ ์์๋ณด๋ ๊ฒ ๋ชฉํ์ด๋ค.
์ด๋ค ์์น๋ผ๊ณ ํ๋ ๊ฒ์ ๊ฒฐ๊ตญ์ spectrum graph์ ์๋ ํน์ ํ node์ ํด๋นํ๋ mass์ ์์น๋ฅผ ์ด์ผ๊ธฐํ๋ค. ๊ทธ node์ ๋ํด์ ํด๋นํ๋ peak์ด ์ฐ๋ฆฌ๊ฐ ์๊ฐํ๋ peptide๋ก๋ถํฐ ์์ ํ๋ฅ ์ q๋ผ๊ณ ์ฃผ์ด์ ธ ์๋ค๊ณ ์๊ฐํ๋ ๊ฒ์ด๋ค.

์ด๋ ๋์์ผ ํ ๊ฒ ๋์ค๋ฉด, ์ ๋์์ผ ํ ๊ฒ ๋์ค๋ฉด ์ข์ ๊ฒ์ด๋ฉฐ, ๋ฐ๋๋ก ๋์์ผ ํ๋๋ฐ ์๋์ค๊ฑฐ๋, ์๋์์ผํ๋๋ฐ ๋์ค๋ฉด ์์ฒญ ๋์ ๊ฒ์ด๋ค. ๋น์ฐํ ๋ง์ด๋ค. ๋์ ๊ฒฝ์ฐ์๋ penalty๋ฅผ ์ฃผ๋ ๊ฑฐ๋ค. ์์ ์ด์ผ๊ธฐํ ๊ฒ์ฒ๋ผ likelihood ratio๋ฅผ ์ฌ์ฉํ์ฌ randomํ ๊ฒฝ์ฐ์ ํ๋ฅ ์ ๊ตฌํด์ ๋น๊ต๋ฅผ ํด์ ์ฐ๊ฒ ๋ค๋ ๊ฒ์ด๋ฉฐ, randomํ noise๊ฐ ๋์ฌ ํ๋ฅ ๋ ์์น์ ๋ฌด๊ดํ๊ฒ ๋ค ๊ฐ๋ค.
์ฐ๋ฆฌ๊ฐ ๊ณ ๋ คํ๊ณ ์๋ ์์น์ peak์ด ์์ผ๋ฉด ๊ทธ random ํ๋ฅ ์ ์ฐ๊ณ , ์์ผ๋ฉด 1-random ํ๋ฅ ์ ๊ทธ๋ฅ ์ฐ๊ฒ ๋ค. ์ด๊ฒ์ด๋ค.

Ratio test scoring for partial peptides
๊ทธ๋ ๊ฒ ํ ๋ค์ ์์ด์ผ ํ ๊ฒ ์์ผ๋ฉด ์ ์๋ฅผ ๋ํด์ฃผ๊ณ , ์์ผ๋ฉด ํจ๋ํฐ๋ฅผ ์ฃผ๊ฒ ๋ค๋ ๊ฒ์ด ํต์ฌ์ด๋ค.
์๋ฅผ ๋ค์ด ์ค๋ช ์ ํด๋ณด์. ion type์ด 4์ข ๋ฅ์ด๋ฉฐ ๊ด์ฐฐ๋๊ฒ ๊ทธ ์ค 3๊ฐ ์ธ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ผ์ด์ค์ ๋ํด 1, 2, 4๋ฒ์ ๋ํด์๋ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ํ๋ฅ ์ ์ฐ๊ณ , 3๋ฒ์ ์ ํ๋ฅ ์ ์ฐ๊ฒ ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด ๋๊ฐ์ด ๋๋คํ ๋ถ๋ถ๋ ๋๊ฐ์ด ๊ณ์ฐํด์ ๋ ์ฌ์ด์ ratio๋ฅผ ๊ฐ์ง๊ณ score๋ฅผ ์ฐ๊ณ๋ค๋ ๊ฒ์ด ๊ธฐ๋ณธ ์ ์ธ ์๊ฐ์ด๋ค. ์ด๋ฐ ๋ชจ๋ธ๋ ๊ฐ๋ฅํ๋ค๋ผ๊ณ ์ด์ผ๊ธฐํ๋ ๊ฒ์ด๋ค.

Finding optimal paths in the spectrum graph
๊ทธ๋ฐ๋ฐ ์ด์ ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ supporting ion๋ค์ด ๋ค ๋ ๋ฆฝ์ ์ผ๋ก ์์ฐ๋๋ค๋ ์์ฒญ๋ ๊ฐ์ ์ ํ๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ ๊ทธ ์ฌ์ด ๋ชจ๋ edge๋ค์ ๋ํด์ ์ด ๊ณ์ฐ์ ๋ค ํ ๊ฒ์ด๊ณ , ๊ณ์ฐ๋์ด ์ฆ๊ฐํ๊ฒ ๋๋ค. ๋๋ฌด ๋ณต์กํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋จ์ํํด์ ์ฌ์ฉ์ ํ๋ ๊ฒ์ด๋ค. Bayesian network๋ ํ์ตํ๋ ๋ฐ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฌ์ง๋ง ์ผ๋จ ํ์ต์ ํด๋๊ณ ๋๋ฉด, ์ถ๋ก ํ๋ ๊ฑฐ๋ ์๋์ ์ผ๋ก ์๊ฐ์ด ๋นจ๋ผ์ ๊ทธ๋ ๊ฒ ์จ๋ ๋๋ค๊ณ ์๊ฐ์ ํ๋ ๊ฒ ๊ฐ๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก DP๋ฅผ ํ๋ฉด์ ์ฌ์ฉํ๋ node์ score๋ ๋น๊ต์ ๋จ์ํ ๊ฒ๋ค์ ์ด๋ค. ์ค์ ๋ก ๊ทธ๊ฑธ ์๋ฌด๋ฆฌ ๋ณต์กํ๊ฒ ํด๋ด์ผ ๊ฒฐ๊ณผ์ ์ผ๋ก score์ ํฌ๊ฒ ์ํฅ์ ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฐ ๋ถ๋ถ์์ ์๋นํ ๋จ์ํ ๊ฒ์ ์ฐ๋ ํธ์ด๋ค.

De novo interpretation summary
์์ฝํด๋ณด๋ฉด, ์ฌ์ค ์ ์ผ ์ด๋ ค์ ๋ ๊ฒ์, b ion๊ณผ y ion์ ์ด๋ป๊ฒ ์ ๊ตฌ๋ถํด๋ด๋๋ ํ๋๊ฒ์ด๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด์ ์ฌ์ค 2๊ฐ์ง๋ฅผ ํ ๊ฒ์ด๋ค.
- PRM node๋ฅผ ๋ง๋ค๋ฉด์ ์ด ์น๊ตฌ๋ค์ด forbidden-pair๋ค๋ผ๋ ๊ฒ์ ์ ๊ธฐ์ตํ๊ณ ์๋ ๊ฒ
- supporting ion์ ์ด์ฉํด์ supporting ion์ด ์๋, ๋๋คํ๊ฒ ๋์ค๋ ์น๊ตฌ๋ค๋ฅผ ๊ณ ๋ คํด์ node์ weighting์ ํ๋ค(node์ score๋ฅผ ์ฃผ์๋ค).

์ด๋ก ์ ์ผ๋ก๋ ์ด๋ ๊ฒ ๊น๋ํ๊ฒ ๋์ง๋ง ์ค์ ๋ฐ์ดํฐ์ ๊ฐ๋ฉด noise๋ ๋ง๊ณ , fragmentation์ด ๋์ด์ผํ ์์น์ ๋ค ๋๋๊ฒ ์ ํ ์๋๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ ๊ฒ ๋ง์กฑ์ค๋ฝ์ง ์๋ค. ์ค์ ๋ก DBSearch์์ DeNovo๋ฅผ ์ํํ๋ฉด 2/3์ ๋ ๋ฐ์ ๋ชป์ป๋๋ค. ๊ทธ๋ฌ๋ ์๋ก์ด ๋ฌด์ธ๊ฐ๋ฅผ ์ฐพ๋๋ฐ ์์ด์๋ ์ ํ์ฉํด๋ณด๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์๋ค.
๋๋ค๋ฅธ ๋จ์ ์, protein modification์ ์์ด PRM์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์, modification์ด ํฌํจ๋ ์์ด์ De Novo๋ฅผ ์ ์ฉํ๊ธฐ์ ๋น์ ํฉํ๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ ํน์ ์์ญ์์๋ ์ ์ฉํ๊ฒ ์๋ํ๋ค๊ณ ๋ณผ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ฐ๋ก De Novo ๊ธฐ๋ฒ์ด๋ค.
๋ณธ ๋ด์ฉ์ ํ์๋ํ๊ต ์ปดํจํฐ์ํํธ์จ์ดํ๊ณผ ๋ฐ ์ธ๊ณต์ง๋ฅํ๊ณผ ๋ฐฑ์์ฅ ๊ต์๋์ ๊ฐ์์๋ฃ์ ๋ฐํ์ผ๋กํ์ฌ ์์ฑ๋์์ต๋๋ค!
PS. ์ถ๊ฐ ๋ฌธ์์ฌํญ ๋ฐ ์ง๋ฌธ์ ํ์ํฉ๋๋ค. ๊ทธ๋ฅผ ํตํด ์ ๋ ๋ ์ฑ์ฅํ ์ ์์ํ ๋๊น์. :)
