[NLP] Attention is all you need
2022๋
์์ฐ์ด์ฒ๋ฆฌ ์คํฐ๋, ์งํ์ 3๊ธฐ์์ ์งํํ์๋ 'Attention is all you need' ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๊ตฌ์ฑํ ํฌ์คํ
์์ ๋ฏธ๋ฆฌ ์๋ ค๋๋ฆฝ๋๋ค.
์๋ ๋งํฌ์์ ์์์ผ๋ก๋ ํ์ธํ ์ ์์ต๋๋ค.
๋งํฌ : Attention is all you nedd ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐํ ์์
์ด๋ฒ ํฌ์คํ ์์๋ NLP, ์ฆ ์์ฐ์ด ์ฒ๋ฆฌ์ ์ฐ๊ตฌ์ ์์ด ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋, ๊ทผ๋ณธ์ด ๋๋ ๋ ผ๋ฌธ์ธ 'Attention is all you need'๋ฅผ ์๊ฐํ๊ณ ์ ํฉ๋๋ค.
Background
๋ณธ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ์ค๋ช ์ ์์ ๋จผ์ ๋ฐฐ๊ฒฝ์ง์์ ์ดํด๋ณด๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
Transformer์ ๊ธฐ์ฌ
Transformer๋ 2017๋ Google์ด ์ ์ํ seq2seq ๋ชจ๋ธ์ ๋๋ค. ๊ธฐ์กด์ Sequence Transduction,๋ณํ ๋ชจ๋ธ์ Encoder(์ธ์ฝ๋)์ Decoder(๋์ฝ๋)๋ฅผ ํฌํจํ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐํ์ผ๋ก Recurrent(์ํ ์ ๊ฒฝ๋ง)๊ณผ Convolution Layer๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค. Transformer๋ Attention ๋ฉ์ปค๋์ฆ์ ํ์ฉ์ ํตํด ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ฐ๊ฒฐํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ๋ฐํ์ผ๋ก ํ๋ Transformer๋ Machine Translation(๊ธฐ๊ณ๋ฒ์ญ)์์ ๋งค์ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํ์ต ์ ์ฐ์ํ ๋ณ๋ ฌํ(Parallelizable)์ ์ฐ์ํ ๋ฟ๋ง ์๋๋ผ ํจ์ฌ ๋ ์ ์ ์๊ฐ์ ์์ํ๊ฒ ๋ฉ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก Constituency Parsing(๊ตฌ๋ฌธ ๋ถ์)๋ถ์ผ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, Generalization(์ผ๋ฐํ) ๋ํ ์ ๋๋ค๊ณ ํฉ๋๋ค.
BERT & GPT
Transformer๋ ์ต๊ทผ ํซํ BERT์ GPT์ ๊ตฌ์กฐ์๋ ํฐ ๊ธฐ์ฌ๋ฅผ ํ์์ต๋๋ค.
์๋ fig 1์์ ํ์ธํ ์ ์๋ฏ์ด, transformer๋ ํฌ๊ฒ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
์ด์ ๊ด๋ จํ ์์ธํ ๊ตฌ์กฐ ์ค๋ช ์ ๋ฐ์์ ๋ค์ ๋ค๋ฃจ๋๋ก ํ๊ฒ ์ต๋๋ค.

Bert๋ transformer์์ ๋์ฝ๋๋ฅผ ์ ์ธํ๊ณ ์ธ์ฝ๋๋ฅผ, GPT๋ ๋ฐ๋๋ก ์ธ์ฝ๋๋ฅผ ์ ์ธํ๊ณ ๋์ฝ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ ์๋ ๋ฌธ์์ ์๋ฏธ๋ฅผ ์ถ์ถํ๋๋ฐ, ํ์๋ ๋ฌธ์ฅ ์์ฑ์ ๊ฐ์ ์ ๋๊ณ ์์ต๋๋ค.
๋ณธ๋ก ์ผ๋ก ๋์์ ์ ๋ฆฌํ์๋ฉด, ๊ฒฐ๊ตญ ๋ ๋ชจ๋ธ์ด ํ์ํ ์ ์์๋ ํฐ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ transformer๋ผ๋ ์ ์ ๋๋ค. ๋ ๋ชจ๋ธ์ ๋ํ ๋ด์ฉ์ ์ถํ ๋ค๋ฃฐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์ด์ผ๊ธฐํ๋๋ก ํ๊ฒ ์ต๋๋ค.

Seq2seq: RNN๊ณผ seq2seq ๊ตฌ์กฐ์ ๋ฌธ์ ์
seq2seq์ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

RNN์ ๋ชจ๋ธ ์ค ํ๋์ธ seq2seq๋ ์์ฐจ์ ์ผ๋ก ์ฐ์ฐ์ ์งํํ๊ฒ ๋ฉ๋๋ค. ๋ํ context vector๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์์ ์ ๋ณด๋ฅผ ์์ถํ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ ๊ทธ๋ก ์ธํด ๋ณ๋ ฌํ๊ฐ ๋ถ๊ฐ๋ฅ ํ๋ฉฐ, ์ฐ์ฐ ์๋๊ฐ ์ ํ๋๋ ๋ฌธ์ ์ ์ด ๋ฐ์ํฉ๋๋ค. Long-term dependency problem, ์ฆ ์ ๋ณด๊ฐ ์ค์ด๋ฆ์ ๋ฐ๋ผ ์ ๋๋ก๋ ์์ธก์ ํ ์ ์๊ฒ ๋๋ ๊ฒ ์ ๋๋ค. ์ ๋ณด ์์ถ์ผ๋ก ์ธํด ์์ค์ด ๋ฐ์ํ๊ฒ ๋๋ค๋ ๋ฌธ์ ์ ๋ํ ์กด์ฌํฉ๋๋ค.

Seq2seq with Attention model
์ด๋ฌํ ๋ฌธ์ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด ์์ค ๋ฌธ์ฅ์ ๋ชจ๋ ๋ ์ด์ด(๊ฐ ํ ํฐ์ด ์ฐ๊ฒฐ๋)์ ์ถ๋ ฅ ์ ๋ถ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋, seq2seq์ attention์ด ๊ฒฐํฉ๋ ๋ชจ๋ธ์ด ๋ฑ์ฅํฉ๋๋ค. Attention์ด๋, ๊ฒฐ๋ก ์ ์ผ๋ก ๋จ์์ ์ ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ์ ์ฅํ๋ ๊ฒ์ด๋ผ๊ณ ์ดํดํ์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.

๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๋๊ณ weight sum vector()๋ฅผ ๋์ฝ๋์ RNN์ ๊ณผ FC์ ์ input์ผ๋ก ๋ฃ๊ฒ ๋ฉ๋๋ค. ์ฌ๊ธฐ์ ๊ตฌํด์ง ํ๋ฅ ๊ฐ, attention weight๋ฅผ ์ด์ฉํด ๊ฐ ์ถ๋ ฅ์ด ์ด๋ค ์ ๋ณด๋ฅผ ๋งํ ์ฐธ๊ณ ํด์ด์ง ํ์ธํ ์ ์๊ฒ ๋ฉ๋๋ค.
Transformer
์ดํ ๋ฑ์ฅํ Transformer๋ CNN, RNN์ ์ ํ ํ์๋ก ํ์ง ์๊ณ attention๋ง์ ์ด์ฉํฉ๋๋ค. ์ด์ ๊ฒฝ์ฐ RNN์ฒ๋ผ ๋ฌธ์ฅ ์์ ๊ฐ ๋จ์ด ์์ ์ ๋ณด๋ฅผ ์ฃผ๊ธฐ ์ด๋ ค์ ์ง๋๋ฐ, ์ด๋ฅผ Positional Encoding์ ์ด์ฉํ์ฌ ์์์ ๋ณด๋ฅผ ์ฃผ๊ฒ ๋ฉ๋๋ค.
์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋๋ ๊ฒ์ ๋์ผํ๋ attention๊ณผ์ ์ ์ฌ๋ฌ ๋ ์ด์ด์์ ๋ฐ๋ณต, ์ฆ ์ธ์ฝ๋๊ฐ N๊ฐ ์ค์ฒฉ๋๋ ๊ฒ์ ๋๋ค.
RNN, LSTM์ ์ ๋ ฅ ๋จ์ด ๊ฐฏ์๋งํผ ์ธ์ฝ๋ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ hidden state๋ฅผ ๋ง๋ค์ง๋ง, transformer๋ ๋จ์ด๊ฐ ํ๋๋ก ์ฐ๊ฒฐ๋์ด ๋ณ๋ ฌ์ ์ผ๋ก ํ๋ฒ์ ์ธ์ฝ๋๋ฅผ ๊ฑฐ์ณ ๋ณ๋ ฌ์ ์ผ๋ก ์ถ๋ ฅ๊ฐ์ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ด๊ฒ ๋์์ต๋๋ค.

Model Architecture
๊ทธ๋ผ ์ด์ transformer ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋ํด ์์ธํ ์ด์ผ๊ธฐํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
Inputs
Outline
Transformer๋ ์์ ์ด์ผ๊ธฐํ๋ฏ์ด ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋จผ์ ์ธ์ฝ๋์ input embedding์ ์ดํด๋ณด๋ฉด fig 8๊ณผ ๊ฐ์ ๊ณผ์ ์ผ๋ก ์งํ์ด ๋ฉ๋๋ค. input ๋ฐ์ดํฐ๋ ์๋ฐฑ๋ง๊ฐ์ ๋ฌธ์ฅ ๋ฐ์ดํฐ์ ๋๋ค. ์ด ๋ฌธ์ฅ ๋ฐ์ดํฐ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ๊ธฐ ์ํด์๋ ๋ฌธ์์ธ ๋จ์ด๋ฅผ ์ซ์๋ก ๋ณ๊ฒฝํด์ผํฉ๋๋ค. ์๋ฒ ๋ฉ์ ํตํด ์ฐ๋ฆฌ๋ ๋ฌธ์์ธ ๋จ์ด๋ค์ ๊ฐ๊ฐ ์ ๋ํ๋ผ ์ ์๋ ์ซ์๋ก ๋ณ๊ฒฝํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ซ์๋ก ๋ณํ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฃผ๊ฒ ๋ฉ๋๋ค.

Byte Pair Encoding(BPE)
Transformer ๋ชจ๋ธ์ ์์ฐ์ด ๋ฌธ์ฅ์ ๋ถ์ ํ ํ ํฐ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. ๋ฐ๋ผ์ ๋ฌธ์ฅ์ ํ ํฐํ๋ฅผ ์ํํด์ฃผ์ด์ผ ํฉ๋๋ค. ํ ํฐํ ๋ฐฉ๋ฒ์ ๋จ์ด ๋จ์, ๋ฌธ์ ๋จ์, ์๋ธ ๋จ์ ๋ฑ ํฌ๊ฒ 3๊ฐ์ง๊ฐ ์กด์ฌํฉ๋๋ค. BPE๋ 1994๋ ์ ์๋ ๋ฐ์ดํฐ ์์ถ ์๊ณ ๋ฆฌ์ฆ์ด๋ฉฐ, ์์ฐ์ด ์ฒ๋ฆฌ์ ์๋ธ์๋ ๋ถ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ฉ๋์์ต๋๋ค. ์ฆ, ๊ธฐ์กด์ ์๋ ๋จ์ด๋ฅผ ๋ถ๋ฆฌํ๋ ๊ฒ์ผ๋ก,๊ธ์ ๋จ์์์ ์ ์ฐจ์ ์ผ๋ก ๋จ์ด ์งํฉ์ ๋ง๋ค์ด ๋ด๋ ๋ฐฉํฅ์ผ๋ก ์ ๊ทผํฉ๋๋ค. ์ด๋ฅผ ํตํด OOV(Out of Vocabulary)๋ฌธ์ ๋ฅผ ์ํํ์์ต๋๋ค.
Positional Encoding
๋ค์์ผ๋ก positional encoding์ ๋๋ค. fig 9์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ์ด ์ค๊ฐ์ ์ฝ์ ๋์ด ์์ต๋๋ค. Positional encoding์ ์ฃผ๊ธฐ ํจ์๋ฅผ ์ด์ฉํ์ฌ ๊ฐ ๋จ์ด์ ์๋์ ์ธ ์์น ์ ๋ณด๋ฅผ ์ ๋ ฅํ๊ฒ ๋ฉ๋๋ค. ์์์ ์ด์ผ๊ธฐํ์๋ฏ์ด, Transformer๋ RNN์ ๋จ์ ์ ํด๊ฒฐํ๊ณ ์ ์ ์๋์์ต๋๋ค. ๋ฐ๋ผ์ positional encoding ๊ณ์ธต์ ์ฌ์ฉํ๋ฏ๋ก์จ ๋จ์ด๋ค์ด ์์ฐจ์ ์ผ๋ก ๋ค์ด์ค์ง ์๊ณ ๋ญํ๊ธฐ๋ก ๋ค์ด์๋ ๋จ์ด๋ค์ ์์๋ฅผ ์ดํดํ๋ฉด์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฐ์ฐ์ด ๊ฐ๋ฅํฉ๋๋ค. ๋ค์ ๋งํด, ๋จ์ด ๋ฐ์ดํฐ๋ค์ ์๋์ ์ธ ์์น ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ฏ๋ก์จ ๋ณ๋ ฌ ์ฐ์ฐ์ด ๊ฐ๋ฅํด์ง๋ ๊ฒ ์ ๋๋ค.

fig 10์ ํตํด positional encoding์ ์์ ์ดํด๋ณผ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ sinusoidal version์ ์ฌ์ฉํ๋๋ฐ, ๊ทธ ์ด์ ๋ ๊ฐ ํฌ์ง์ ์ ์๋์ ์ธ ์ ๋ณด๋ฅผ ๋ํ๋ด์ผํ๋ฉฐ, ์ ํ๋ณํ ํํ๋ก ๋์ ํ์ต์ด ํธ๋ฆฌํ๊ธฐ ๋๋ฌธ์ด๋ผ ์ดํดํ์์ต๋๋ค.

Multi-head Attention
outline
๋ ผ๋ฌธ์์๋ self-attention(scaled dot-product attention) layer๋ฅผ ๋ค์ค์ผ๋ก ๊ตฌํํ multi-head attention์ ์ ์ํ์์ต๋๋ค. Scaled dot-product attention์ ๊ตฌ์กฐ๋ fig 12์์ ํ์ธํ ์ ์์ต๋๋ค.

Dot-product Attention & Scaling
Scaled-dot์ ์์์ผ๋ก ํํํ๋ฉด fig 14์ ๊ฐ์ต๋๋ค. ์ด๋, ๋ ผ๋ฌธ์์ attention์ concat์ด ์๋ dot์ผ๋ก ๊ตฌํํ์์ต๋๋ค. ๊ทธ ์ด์ ๋ฅผ ์ดํด๋ณด์๋ฉด, dim์ ์ฆ๊ฐ๊ฐ ์์์ ๋ฐ๋ผ space๊ฐ efficientํ๋ฉฐ, matrix multiplication๋ง์ผ๋ก ๊ตฌํ์ด ๊ฐ๋ฅํ์ฌ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค.

๊ทธ๋ ๋ค๋ฉด ๊ธฐ์กด์ dot-product attention์์ scaling์ ์งํํ ์ด์ ๋ ๋ฌด์์ผ๊น์?
๊ทธ ์ด์ ๋ fig 15์์ ์ดํด๋ณผ ์ ์๋ฏ์ด, QK์ ๋ด์ ๊ฐ์ด ๋งค์ฐ ์ปค์ง ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ ์ปค์ง๋๊ฐ์ ์๋ฌธ์ ํ์ ์ ์์ต๋๋ค. ๊ทธ์ ๋ํด ๋ณด์ถฉ ์ค๋ช ์ ํ์๋ฉด, ๊ฐ ๊ฐ๊ฐ gaussian(๊ฐ์ฐ์์) ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์ ๋ ๋ถ์ฐ์ด ๊ฐ ๋จ์ ํ์ธํ ์ ์์ต๋๋ค.

QK์ ๋ด์ ๊ฐ์ด ๋งค์ฐ ์ปค์ง๋ฉด softmax์ scale variantํ ํน์ฑ์ ๋ง๋ gradient vanishing์ด ๋ฐ์ํฉ๋๋ค. ์ค์ ๋ก ์ธ ๊ฒฝ์ฐ, softmax์ jacobian(์์ฝ๋น์)์ fig 16๊ณผ ๊ฐ์๋ฐ, ์ด ๊ฒฝ์ฐ scale์ด ํฌ๋ฉด ๊ณผ ๊ฐ์ ํํ๊ฐ ๋์ด gradient vanishing์ด ๋ฐ์ํฉ๋๋ค.

Scaled Dot-product Attention
๊ทธ๋ ๋ค๋ฉด ๋ ผ๋ฌธ์์ ์ด์ผ๊ธฐํ๋ Q, K, V๊ฐ ์๋ฏธํ๋ ๊ฒ์ ๋ฌด์์ผ๊น์?
- Q = Query vector : ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์๋ ๋ฒกํฐ, ์ํฅ์ ๋ฐ๋ ๋ฒกํฐ
- K = Key vector : ์ด๋ค ์ข ๋ฅ์ ์ ๋ณด๊ฐ ์๋์ง๋ฅผ ๋ํ๋ด๋ ๋ฒกํฐ, ์ํฅ์ ์ฃผ๋ ๋ฒกํฐ
- V = Value vector : ์ฃผ๋ ์ํฅ์ ๊ฐ์ค์น ๋ฒกํฐ
Fig 17์ ๋์์๋ฏ์ด scaled dot-product attention์ ๊ณผ์ ์ ์ ๋ฆฌํด๋ณด๋ฉด, ๋จผ์ ์ ๋ ฅ์ ๋ก ์ฒ๋ฆฌํ๊ฒ ๋ฉ๋๋ค. ์ดํ matrix๋ก ์ฌ๋ฌ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ณ , ์ ์ฌ์ด์ ๋ด์ ์ ํตํด ์ฌ์ด ์ ์ฌ๋๋ฅผ ์ธก์ ํ๊ฒ ๋ฉ๋๋ค. ์ดํ fig 18๊ณผ ๊ฐ์ด softmax ํจ์์ ๋์ ํ์ฌ ์ต์ข attention ๊ฐ matrix๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค. ๋ค์ ๋งํด ์ ๊ฐ์ด ์ ๋ฆฌํ ์ ์๊ฒ ์ต๋๋ค.


Process
์์์ ์ค๋ช ํ์๋ฏ์ด ๋ฅผ ๊ณ์ฐํ์ฌ concat(=concatenate)๋ฅผ ์งํํ๊ฒ ๋ฉ๋๋ค. concatenate์ ์ฌ์ฌ๋ก ์๋ค๋ผ๋ ์๋ฏธ๋ก attentionํ ๊ฐ๋ค์ ๋ง ๊ทธ๋๋ก ์ด์ด์ค๋๋ค.

Multi-head attention์ผ๋ก ์ป์ ์ ์๋ ์ด์ ์ ์ดํด๋ณด๋ฉด, ์
๋ ฅ์ ์๋ก ๋ค๋ฅธ ๋ถ๋ถ์ ์ฐธ์กฐํจ์ ๋ฐ๋ผ ๋ค์ํ ํํ์ ์ป์ ์ ์์ต๋๋ค. ๋ํ ์ด๋ฅผ ํตํด ensemble ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ํฐ ์ด์ ์ ๊ฐ๊ณ ์์ต๋๋ค. ์ฌ๊ธฐ์ ์์๋ธ ํจ๊ณผ๋, ํ๋์ ๋ชจ๋ธ๋ง์ ํ์ต์์ผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต์์ผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ผ๋ก ๋ฌธ์ ๋ฅผ ์ฒ๋ฆฌํ๋ , ์ฌ๋ฌ ์ธก๋ฉด์์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ผ๋ณด๋ ํจ๊ณผ๋ฅผ ์๋ฏธํฉ๋๋ค.

3-Type Attention
transformer์๋ encoder self-attention, masked decoder self-attention, encoder-decoder attention์ ์ด 3๊ฐ์ง Attention layer๊ฐ ์กด์ฌํฉ๋๋ค. Encoder self-attention์ ๊ฐ ๋จ์ด์ ์์ด ์ ๋ถ๋ฅผ ์ฐธ๊ณ ํ๋ฉฐ, masked decoder self-attention์ ์นํ ์ ๋ฐฉ์งํ์ง ์ํด ์์ชฝ ๋จ์ด๋ค๋ง์ ์ฐธ๊ณ ํ๊ฒ ๋ฉ๋๋ค. Encoder-decoder attention์์ query๋ ๋์ฝ๋, key์ value๋ ์ธ์ฝ๋์ ์์ผ๋ฉฐ positional encoding์์ ์ฃผ๊ธฐํจ์๋ฅผ ํ์ฉํด ๊ฐ ๋จ์ด์ ์๋์ ์ธ ์์น ์ ๋ณด๋ฅผ ์ ๋ ฅํ๊ฒ ๋ฉ๋๋ค.

๊ฐ ์ดํ ์ ์ ํ์ ์ ๋ ๋ค์๊ณผ ๊ฐ์ด ํ์ํ ์ ์์ต๋๋ค.
- ์ธ์ฝ๋์ self-attention
- ๋์ฝ๋์ masked self-attention
- ๋์ฝ๋์ encoder-decoder attention
- Query: ๋์ฝ๋ ๋ฒกํฐ / Key = Value: ์ธ์ฝ๋ ๋ฒกํฐ
์ธ์ฝ๋์ self-attention๊ณผ ๋์ฝ๋์ masked self-attention์์๋ ์ ๊ฐ ๋ชจ๋ ๋์ผํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋์ฝ๋์ encoder-decoder attention์ ๋ก decoder vector๋ฅผ, ๋ก encoder vector๋ฅผ ๊ฐ์ต๋๋ค.

๋ํ multi-head attention์์ decoder๋ auto-regressiveํ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ masking์ ํ์๋ก ํฉ๋๋ค. Masking์ ํตํด Auto-regressiveํ ์ฑ์ง์ ์ ์งํ ์ ์์ต๋๋ค. Fig 24์์ ๋ณผ ์ ์๋ฏ์ด ์ ๋ง ์ฐธ๊ณ ํ๋ฉฐ, ๋ ๋ฅผ, ์ฆ ์ดํ ๋จ๊ณ์ ๊ฐ์ ์ฐธ๊ณ ํ์ง ๋ชปํ๋ ๊ฒ์ ๋๋ค.


์ด๋ฌํ masked Decoder self-attention์ ๋ํด ์กฐ๊ธ๋ ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
decoder ๋ด๋ถ์ attention
์์ ์ค๋ช ๋๋ฆฐ๋ฐ์ ๊ฐ์ด Transformer์ ๋์ฝ๋์์๋ ์ธ์ฝ๋์ ๋ค๋ฅด๊ฒ Masked Multi-head attention์ด ์ํ๋ฉ๋๋ค. ์ธ์ฝ๋๋ input์ ์๋ ๋ด์ฉ์ ์ดํดํ๋ task๋ผ๋ฉด, ๋์ฝ๋๋ input์ ์๋ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก output ๋ด์ฉ์ ์์ธกํ๋ task์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ masking์ ํตํด output์ ๋ด์ฉ์ ๋ฏธ๋ฆฌ ์ปท๋ํ์ง ๋ชปํ๋๋ก ๋ง๋ ๊ฒ์ ๋๋ค.
Multi-head attention๊ณผ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋์ผํ์ง๋ง, self attention ๊ณ์ฐ ์ํ์ ํ์ฌ ์์ ๋ณด๋ค ์์ ์์นํ ์ํ์ค๋ค๋ง์ ์ด์ฉํด self attention์ ์ํํ๊ณ , ๋ค์ ์์นํ ์ํ์ค๋ ์ฐธ์กฐํ์ง ์๋ค๋ ์ฐจ์ด์ ์ ๊ฐ๊ณ ์์ต๋๋ค. ๊ธฐ์กด seq2seq์ ๊ฐ์ RNN(์ํ ์ ๊ฒฝ๋ง) ๋ชจ๋ธ์ ์ํ์ค๊ฐ ์์ฐจ์ ์ผ๋ก ์ ๋ ฅ๋๊ธฐ ๋๋ฌธ์ ์์ชฝ๋ถํฐ ์์ฐจ์ ์ผ๋ก ์ ๋ฐ์ดํธ ๋์ด์จ hidden state๋ฅผ ๋ค์ ์ํ์ค ์์ธก์ ์ํด ์ฌ์ฉํ์์ต๋๋ค. ํ์ง๋ง transformer ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ค๊ฐ ํ๋ฒ์ input์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์, ํ์ฌ ์์ ๋ณด๋ค ๋ค์ ์ค๋ ์ํ์ค์ ์ ๋ณด๋ง์ ๋ ์ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด masking์ ํ ๋ค self attention์ ์ํํ๋ ๊ฒ์ ๋๋ค.

์ง๊ธ๋ถํฐ ๊ทธ ๊ณผ์ ์ ์กฐ๊ธ ๋ ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

fig 26์ a์ ๊ฐ์ด โI am a boyโ๋ผ๋ ๋ฒกํฐ๋ฅผ ๊ฐ์ ํฉ๋๋ค. b๋ ์ด ๋ฒกํฐ์ score๋ฅผ ๋ํ๋ ๋๋ค. ์ฌ๊ธฐ์ ํฐ ์ ๋ถ๋ถ, ์ฆ ํ์ฌ ์์ ๋ณด๋ค ๋ค์ ์ค๋ ๊ฐ์ ๋ง์คํฌ๋ฅผ ์์์ค๋๋ค. ์ด๋ฅผ ํ์ํ ๊ฒ์ด c์ ๋๋ค. masking์ ์ํ์ ์ผ๋ก ๊ตฌํํ ๋์๋ ํฌ์ง์ ์ ํด๋นํ๋ score ๊ฐ์ -inf(๋ง์ด๋์ค ๋ฌดํ๋) ๊ฐ์ผ๋ก ํ๊ธฐํจ์ผ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ๋ง์คํฌ ์ฒ๋ฆฌ๋ฅผ ๋จผ์ ํ ํ softmax๋ฅผ ์ทจํ๋ฉด, d์ ๊ฐ์ Masked score vector๊ฐ ์์ฑ๋ฉ๋๋ค.

์ด๋ ๊ฒ maksing๋ ๊ฐ์ ์ต์ข ์ ์ผ๋ก self attention์ ๊ฑฐ์ณ masked multi head attention์ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ๋์ฝ๋์์ ์์ฑ๋ ๊ฐ์ ์์ ์ธ์ฝ๋์์ ์์ฑ๋ ๊ฐ๊ณผ ๋ณํฉ์ ํด์ผํฉ๋๋ค. ์ธ์ฝ๋์์ ๋์ฝ๋๋ก ๊ฐ์ด ์ ๋ฌ๋๋ ๊ณผ์ ์์ ๋ํ ์ดํ ์ ๊ธฐ๋ฒ์ด ์ ์ฉ๋ฉ๋๋ค.
Layer normalization
๋ค์์ผ๋ก Layer normalization์ ๋๋ค. layer normalization์ ์ฌ์ฉํ ์ด์ ๋ฅผ ์์๋ณด๊ธฐ ์ํด Batch normalization๊ณผ ๋น๊ตํ์ฌ ํจ๊ป ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

Batch normalization๊ณผ Layer normalization์ ๋ํด ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ํํํ๊ณ ์์ต๋๋ค.
Batch Normalization : Estimate the normalization statistics from the summed inputs to the neurons over a mini-batch of training case.
Layer Normalization : Estimate the normalization statistics from the summed inputs to the neurons within a hidden layer.
์ฆ, Batch Normalization์ ๋ฏธ๋ ๋ฐฐ์น ๋จ์๋ก ์ ๊ทํ๋ฅผ ํ๋ ๋ฐ๋ฉด, Layer Normalization์ hidden layer์ input์ ๊ธฐ์ค์ผ๋ก ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ๊ฒ ๋ฉ๋๋ค.
์ด์ฒ๋ผ ์ ๊ทํ์ ๋จ์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ Batch Normalization์ ๋ค์๊ณผ ๊ฐ์ ๋จ์ ์ด ์กด์ฌํฉ๋๋ค.
- mini-batch ํฌ๊ธฐ์ ์์กด์ ์ด๋ค.
- Recurrent ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ฉ์ด ์ด๋ ต๋ค
๋ฐ๋ฉด์ Layer Normalization์ ๊ฒฝ์ฐ ์ด์ ๋๋น๋๋ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ๋ค์ด ์กด์ฌํฉ๋๋ค.
- ๋ฐ์ดํฐ๋ง๋ค ๊ฐ๊ฐ ๋ค๋ฅธ normalization term()๋ฅผ ๊ฐ๋๋ค
- mini-batch ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋๋ค. (์ฆ, ์ด์ด๋ ์๋ํ๋ค.)
- ์๋ก ๋ค๋ฅธ ๊ธธ์ด๋ฅผ ๊ฐ๋ sequence๊ฐ batch ๋จ์์ ์ ๋ ฅ์ผ๋ก ๋ค์ด์ค๋ ๊ฒฝ์ฐ์๋ ์ ์ฉํ ์ ์๋ค. (1๋ฒ ํน์ง ๋๋ฌธ)
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ layer normalization์ ์ฌ์ฉํ๊ฒ ๋์์ต๋๋ค.
FFN
FFN์ ์ญํ ์ ๋ํด์ ์์๋ณด๊ธฐ ์ ์ Residual connection์ ์ฌ์ฉํ๋ ์ด์ ๋ฅผ ๊ฐ๋จํ ์ด์ผ๊ธฐํ๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
Transformer์ ๊ฒฝ์ฐ, ์ฐ์ฐ๋์ด ๋ง๊ณ ์ธต์ด ๊น์ด ์ผ๋ฐํ๊ฐ ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์ฐจ์์ด ๊ฐ์ ์๋ธ์ธต์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋ํด ์ฐ์ฐ๋์ ์ค์ฌ ๋ชจ๋ธ์ ํ์ต์ ๋๊ฒ ๋ฉ๋๋ค.

FFN์ Fully-connected feed forward network๋ฅผ ์๋ฏธํฉ๋๋ค. FFN์ ์์๊ณผ ๊ทธ ์์์ ๋์ํํ๋ฉด fig 30๊ณผ ๊ฐ์ต๋๋ค. multi-head attention์ ๊ฒฝ์ฐ ์ ํ ๋ณํ๋ง ๋ค์ด๊ฐ์๊ธฐ ๋๋ฌธ์ ํ์ฑํ ํจ์(activation function)๋ฅผ ์ถ๊ฐํ๊ณ ํ์ฑํ ํจ์ ์ด์ ๊ณผ ์ดํ์ fully-connected layer๋ฅผ ์ฝ์ ํจ์ผ๋ก์จ ๋น์ ํ์ฑ์ ์ถ๊ฐํ๋ ์ญํ ์ ํฉ๋๋ค.

Training
Data & Batching
Traininig์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ๋ฐฐ์น๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Standard WMT 2014 English-German dataset
- 4.5 million sentence pairs
- encoded using BPE, 37,000 tokens
- Larger WMT 2014 English-French dataset
- 36 million sentences
- split tokens into 32,000 word-piece vocabulary
- Batched together by approximate sequence length
- Each training batch contained a set of sentence pairs
- containing approximately 25,000 source tokens and 25,000 target tokens
Optimizer & Scheduler
Training์๋ Adam optimizer๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๋ํ fig 31์์ ๋ณผ ์ ์๋ฏ์ด ์์ ์ ๋ฐ๋ผ learning rate๋ฅผ ๋ค๋ฅด๊ฒ ํ์์ต๋๋ค.

warmup-step์ธ ์ฒซ๋ฒ์งธ training step์์๋ lr์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐ์์ผฐ์ผ๋ฉฐ, ๊ทธ ํ๋ก๋ step number์ inverse square root์ ๋น๋กํ๊ฒ ๊ฐ์์์ผฐ์ต๋๋ค.
Regulation
๋ํ Residual dropout๊ณผ Label smoothing ๊ธฐ๋ฒ์ regulation์ผ๋ก ์ฌ์ฉํ์์ต๋๋ค. ๋ผ๋ฒจ ์ค๋ฌด๋ฉ์ด๋ ๋ผ๋ฒจ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์๋์ ์ผ๋ก hard target์ soft target์ผ๋ก ๋ฐ๊พธ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ ๊ธฐ๋ฒ์ ํตํด accuracy์ BLEU score๋ฅผ ํฅ์์์ผฐ๋ค๊ณ ์ธ๊ธํ๊ณ ์์ต๋๋ค.

Experiments
BLEU & PPL
๋ณธ ๋ ผ๋ฌธ์์๋ BLEU์ PPL์ ์ด์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์์ต๋๋ค. BLEU๋ ๊ธฐ๊ณ ๋ฒ์ญ ๊ฒฐ๊ณผ์ ์ฌ๋์ด ์ง์ ๋ฒ์ญํ ๊ฒฐ๊ณผ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ๋น๊ตํ์ฌ ๋ฒ์ญ์ ๋ํ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ธก์ ๊ธฐ์ค์ n-gram์ ๊ธฐ๋ฐํฉ๋๋ค. (n-gram์ ์ ์๋ ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ์ด ์๋, ์ผ๋ถ ๋จ์ด ๋ช ๊ฐ๋ฅผ ๋ณด๋๋ฐ, ์ด๋ ๋ช ๊ฐ๊ฐ ๊ณง n-gram์ n์ ๋๋ค.)
n-gram์ ๋นํด ์ข ๋ ์์ํ PPL์ ๋ํด ์ด์ผ๊ธฐํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ๋ ๊ฐ์ ๋ชจ๋ธ A, B๊ฐ ์์ ๋ ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ํ์ธํ ์ ์์์ง ์๊ฐํด๋ด ์๋ค. ๋ ๊ฐ์ ๋ชจ๋ธ์ ์คํ ๊ต์ , ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ์ ํ๊ฐ์ ํฌ์ ํด ๋ณผ ์ ์๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ํ๊ฐ๋ณด๋ค๋ ์กฐ๊ธ ๋ถ์ ํํ ์๋ ์์ด๋ ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํด์ ๋น ๋ฅด๊ฒ ์์ผ๋ก ๊ณ์ฐ๋๋ ๋ ๊ฐ๋จํ ํ๊ฐ ๋ฐฉ๋ฒ์ด ์กด์ฌํฉ๋๋ค. ๋ฐ๋ก ๋ชจ๋ธ ๋ด์์ ์์ ์ ์ฑ๋ฅ์ ์์นํํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ perplexity, PPL์ ๋๋ค. PPL์ด โ๋ฎ์ ์๋กโ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. fig 33์์ ๋ณผ ์ ์๋ ์์์ ๊ฝค๋ ์ด๋ ต๊ฒ ๋๊ปด์ง ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์๋ฅผ ํตํด ๊ฐ๋จํ ์ค๋ช ํด๋ณด๊ฒ ์ต๋๋ค.

PPL์ด 10์ด ๋์๋ค๊ณ ๊ฐ์ ํด๋ด ์๋ค. ๊ทธ๋ ๋ค๋ฉด ํด๋น ์ธ์ด ๋ชจ๋ธ์ ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํด์ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ ์์ (time step)๋ง๋ค ํ๊ท 10๊ฐ์ ๋จ์ด, ์ฆ ์ ํ์ง๋ฅผ ๊ฐ์ง๊ณ ์ด๋ค ๊ฒ์ด ์ ๋ต์ธ์ง ๊ณ ๋ฏผํ๊ณ ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ฆ, ๋ณด๋ค ์ ์ ์ ํ์ง๋ฅผ ๊ฐ์ง๊ณ ๊ณ ๋ฏผํ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๊ฒ ์ต๋๋ค.
๋จ, PPL์ ์ด์ฒ๋ผ ํ ์คํธ ๋ฐ์ดํฐ์ ์์กดํ๋ฏ๋ก ๋ ๊ฐ ์ด์์ ์ธ์ด ๋ชจ๋ธ์ ๋น๊ตํ ๋๋ ์ ๋์ ์ผ๋ก ์์ด ๋ง๊ณ , ๋ํ ๋๋ฉ์ธ์ ์๋ง๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ผ ํ ๊ฒ์ ๋๋ค.
Translation
fig 34๋ฅผ ๋ณด๋ฉด 2๊ฐ์ง transformer ๋ชจ๋ธ์ด ์กด์ฌํฉ๋๋ค.

- Transformer (base model) : ์ฒดํฌํฌ์ธํธ 5๊ฐ์ ํ๊ท ์ ๋ธ ๋จ์ผ ๋ชจ๋ธ
- Transformer (big) : ์ฒดํฌํฌ์ธํธ 20๊ฐ์ ํ๊ท ์ ๋๊ณ beam size๊ฐ 4์ด๊ณ length penalty๊ฐ 0.6์ธ beam search๋ ์ฌ์ฉ
big model์ ๊ฒฝ์ฐ, BLEU ์ค์ฝ์ด์์ EN-DE(์์ด-๋ ์ผ์ด), EN-FR(์์ด-ํ๋์ค์ด) ๋ฒ์ญ task์์ ๊ฐ์ฅ ์ข์ ์ ์์ธ SOTA๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ๋ํ training cost์ ๊ฒฝ์ฐ, base model์ด ๊ธฐํ ๋ค๋ฅธ ๋ชจ๋ธ(ConcS2S)๊ณผ ๋น๊ตํ์ ๋ cost๊ฐ ๋ฎ์์ ํ์ธํ ์ ์์ต๋๋ค. big model๋ ๋ง์ฐฌ๊ฐ์ง๋ก cost๊ฐ ๋๋ค๊ณ ๋ ๋ณผ ์ ์์ต๋๋ค.
Parsing
parsing์ ๊ฒฝ์ฐ์์๋ fig 35์ ๊ฐ์ด 2๊ฐ์ง๋ก ๋๋์ด ํ์ธํ ์ ์์ต๋๋ค.
- Transformer (WSJ only) : WSJ dataset(40K)๋ง ํ์ฉ
- Transformer (semi-supervised) : Berkly Parser Corpora(17M)์ ํ์ต

Transformer (WSJ only)๋ ๋ฒ์ญ์ ์ฉ ๋ชจ๋ธ์ด์์์๋ ๋ถ๊ตฌํ๊ณ parser ์ ๋ฌธ์ผ๋ก ๋ง๋ค์๋ RNN Grammer(Dyer et al.(2016))์ ์ ์ธํ๊ณ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ Transformer(semi-supervised)์ ๊ฒฝ์ฐ ๋ค๋ฅธ task์ ๋น๊ตํด์ ํด๋น task๊ฐ ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์์ ์ ์ํ์์ต๋๋ค.
ํด๋น ์คํ์ ํตํด ํธ๋์คํฌ๋จธ๊ฐ ๋ค๋ฅธ task์์๋ ์ ์ฉํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์์ฝํ์๋ฉด
Transformer๋ ๊ธฐ์กด์ RNN, seq2seq ๋ชจ๋ธ์ ํ๊ณ์๋ ๋ณ๋ ฌํ ๋ถ๊ฐ๋ฅ๊ณผ ์ฐ์ฐ ์๋ ์ ํ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ attention ๊ธฐ๋ฒ์ ๋์ ํ์์ต๋๋ค. ๋ณ๋ ฌ์ ์ฐ์ฐ์ ํตํด ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์์ต๋๋ค. ๊ตฌ์กฐ์์ ์ฃผ์๊น๊ฒ ๋ณผ ์ ์ ์ญ์๋ attention์ ์ ์ฉ๊ณผ self-attention, masked self attention์ผ ๊ฒ ์ ๋๋ค.
transformer๋ฅผ ๊ธฐ์ ์ผ๋ก NLP๋ ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. BERT์ GPT ๋ํ transformer์ ์ธ์ฝ๋์ ๋์ฝ๋ ๋ง์ ์ด์ฉํด์ ๋ง๋ค์์ผ๋ฉฐ, ์ต๊ทผ ๋ถ์ด ์ผ๊ณ ์๋ ChatGPT ๋ํ GPT๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค๋ณด๋ transformer์์ ํ์๋์๋ค๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.
-
์ฐธ๊ณ ๋ฌธํ
๋ ผ๋ฌธ: Attention is all you need
์ฌ์ดํธ:
Attention is all you need paper ๋ฝ๊ฐ๊ธฐ
Python, Machine & Deep Learning
Attention Is All You Need(transformer) paper ์ ๋ฆฌ
[NLP] Attention Is All You Need ๋ฒ์ญ ๋ฐ ์ ๋ฆฌ (Transformer)
PS. ์ถ๊ฐ ๋ฌธ์์ฌํญ ๋ฐ ์ง๋ฌธ์ ํ์ํฉ๋๋ค. ๊ทธ๋ฅผ ํตํด ์ ๋ ๋ ์ฑ์ฅํ ์ ์์ํ ๋๊น์. ๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค.
