๐ŸคLangCon 2023๐Ÿฅ ํ›„๊ธฐ

jaehyeong.an_ยท2023๋…„ 2์›” 19์ผ
1


๐Ÿค LangCon 2023 ์ž๋ฃŒ
์˜์ƒ ๋งํฌ : https://www.youtube.com/playlist?list=PLqkITFr6P-oQwn2hcDauXFht48XHfJojQ
๋ฐœํ‘œ ์ž๋ฃŒ : https://songys.github.io/2023Langcon/about/


KoELECTRA๋กœ ์œ ๋ช…ํ•˜์‹  ๋ฐ•์žฅ์›๋‹˜, EleutherAI์—์„œ ํ™œ๋™ํ•˜์‹œ๋ฉด์„œ Polyglot, olso๋“ฑ ๊ฐœ๋ฐœํ•˜์‹  ํŠœ๋‹™์˜ ๊ณ ํ˜„์›…๋‹˜, ํ† ์Šค์˜ ๊ณ ์„ํ˜„๋‹˜, ์ด๋ฃจ๋‹ค๋ฅผ ๊ฐœ๋ฐœ์ค‘์ด์‹  ์Šค์บํ„ฐ๋žฉ ์ด์ฃผํ™๋‹˜ ๋“ฑ NLP์—…๊ณ„์—์„œ ์˜คํ”ˆ ์†Œ์Šค ๋ฐ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋งŽ์€ ๊ธฐ์—ฌ๋ฅผ ํ•ด์ฃผ๊ณ  ๊ณ„์‹œ๋Š” ๋ถ„๋“ค์ด ์Šคํ”ผ์ปค๋กœ ์ฐธ์—ฌํ•˜์…จ๋‹ค. ๊ทธ์™ธ์—๋„ ๋จธ์‹ ๋Ÿฌ๋‹ ๋Œ€์ค‘ํ™”์— ์—„์ฒญ๋‚œ ๊ธฐ์—ฌ๋ฅผ ํ•˜์‹œ๋Š” ๋ฐ•ํ•ด์„  ์ž‘๊ฐ€๋‹˜ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํŽ˜์ด์Šค๋ถ ๊ทธ๋ฃน์— ์›”๊ฐ„ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๋กœ ํ™œ๋™ํ•˜์…จ๋˜ Liner์˜ ํ—ˆํ›ˆ๋‹˜๋„ ๋ต ์ˆ˜ ์žˆ์—ˆ๋‹ค.

ChatGPT๊ฐ€ nlp๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ „ ์„ธ๊ณ„๋ฅผ ๊ฐ•ํƒ€ํ•˜์˜€๊ธฐ์— ์ „๋ฐ˜์ ์œผ๋กœ ์„ธ์…˜ ๋ชจ๋‘ ChatGPT๊ฐ€ ์–ธ๊ธ‰๋˜์—ˆ๊ณ  ๊ทธ์—๋Œ€ํ•œ ์•ž์œผ๋กœ์˜ ๋ฐฉํ–ฅ์„ฑ์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ๊ฐ€ ๋งŽ์•˜๋‹ค. ์Šคํ”ผ์ปค ๋ถ„๋“ค์˜ ๊ฒฝํ—˜๊ณผ ํ†ต์ฐฐ๋ ฅ์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๋„ˆ๋ฌด ์†Œ์ค‘ํ•œ ์ž๋ฆฌ์˜€๊ธฐ์— ์†Œ๊ฐœ์ฃผ์‹  ๋‚ด์šฉ์„ ๊ฐ„๋‹จํžˆ ์ •๋ฆฌํ•ด๋ณด์•˜๋‹ค.

1๏ธโƒฃ "์šฐ๋ฆฌ๋Š” ๋จธ์‹ ๊ณผ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ์ด์•ผ๊ธฐํ•˜๋‚˜?" - ์ด์ข…์›๋‹˜(์‚ผ์„ฑ์ „์ž)
GPT3 ๋ฐ ChatGPT์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ์†Œ๊ฐœ๋ฅผ ํ•ด์ฃผ์…จ๋‹ค. GPT3์™€์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์ธ Instruct tuning ๋ฐ RLHF๋ฅผ ์ž์„ธํžˆ ๋‹ค๋ฃจ์—ˆ๋‹ค. ์ดํ›„ ChatGPT์˜ ํ•œ๊ณ„ ๋ฐ ์ธ๊ฐ„์˜ ๋Œ€ํ™”์™€์˜ ์ฐจ์ด์ ์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜์…จ๊ณ  ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋ฐœํ™”์˜๋„, semantic, reasonable ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹(DialogAct, NL description, Chain of Speech)์„ ์ œ์•ˆํ•˜์˜€๋‹ค.

2๏ธโƒฃ "ํŠน์ • ๋„๋ฉ”์ธ์— ๋งž๋Š” ์–ธ์–ด๋ชจ๋ธ์€ ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค๊นŒ?" - ๋ฐ•์žฅ์›๋‹˜ (BHSN)
KoELECTRA, KLUE-RoBERTa, KoBigbird๋“ฑ ๋‹ค์–‘ํ•œ ํ•œ๊ตญ์–ด ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ๊ณต๊ฐœํ•˜์…จ๋˜๋งŒํผ ๊ทธ ๋…ธํ•˜์šฐ๋ฅผ ์•„๋‚Œ์—†์ด ์ „๋‹ฌํ•ด์ฃผ์…จ๋‹ค. ๋งŽ์€ ๊ณณ์—์„œ ๊ฐ ๋„๋ฉ”์ธ์— ๋งž๋Š” ์–ธ์–ด๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ ์ž ํ•˜๋Š”๋ฐ, Domain specific ๋ชจ๋ธ ๊ฐœ๋ฐœ ์‹œ ์ฃผ์˜ํ•ด์•ผํ•  ์ ์— ๋Œ€ํ•ด์„œ ์†Œ๊ฐœํ•ด์ฃผ์…จ๋‹ค.

  • ํ•™์Šต ์ฝ”ํผ์Šค๊ฐ€ ์ถฉ๋ถ„ํ•œ์ง€ ์‚ดํŽด๋ณด๊ณ  ๋ฐ์ดํ„ฐ ์ด ์‚ฌ์ด์ฆˆ๋ฅผ ๊ผญ ์žฌ๋ด๋ผ (ํ•œ๊ธ€ 3 byte, ์˜์–ด 1byte)
  • ์–ธ์–ด๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ ์ „ tokenizer๋กœ ๋ณด์บกํ™•์žฅ์„ ๋จผ์ € ์‹œ๋„ํ•ด๋ด๋ผ ๋ช‡๋ช‡์—ฐ๊ตฌ์• ์„œ ๋ณด์บกํ™•์žฅ๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅํ–ฅ์ƒ์ด ๋˜๋Š” ๊ฑธ ์ฆ๋ช…ํ–ˆ๋‹ค.
  • *๋„๋ฉ”์ธ ์–ธ์–ด๋ชจ๋ธ์ด ํ•„์š”ํ•˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค (ํŠน์ • ๋„๋ฉ”์ธ ์–ธ์–ด๋ชจ๋ธ์˜ ๊ฒฝ์šฐ general ๋ชจ๋ธ๊ณผ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ์—†๋‹ค)
  • ๋”๋Ÿฌ์šด ํฐ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ์ข‹์€ ํ’ˆ์งˆ์˜ ์†Œ๋Ÿ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐฑ๋ฐฐ ๋‚ซ๋‹ค.

3๏ธโƒฃ Shallowํ•œ ์ž์—ฐ์–ด ๊ฒ€์ƒ‰ ๋งŒ๋“ค๊ธฐ
์›์•ฑ ์ „๋žต์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ํ† ์Šค ๋‚ด์—๋Š” ๋งŽ์€ ๊ธฐ๋Šฅ๋“ค์ด ์กด์žฌํ•œ๋‹ค.. ๊ทธ๋Ÿฌํ•œ ๊ธฐ๋Šฅ๋“ค์„ ๊ฒ€์ƒ‰์œผ๋กœ ์†์‰ฝ๊ฒŒ ์ฐพ๊ธฐ ์œ„ํ•œ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ ๋„์ž…๊ธฐ์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•ด์ฃผ์…จ๋‹ค.

  • ๊ฒ€์ƒ‰์€ ๊ฒฐ๊ตญ ์ž์—ฐ์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœํ•œ ์ถ”์ฒœ ์‹œ์Šคํ…œ์ด๋‹ค.
  • ํ† ์Šค์—์„œ๋Š” semanticํ•œ ๊ฒ€์ƒ‰์„ ์œ„ํ•ด DPR(Dense Passage Retriever)๋ฅผ ๋„์ž…ํ•˜์˜€๋‹ค.
  • MultipleNegativeRankingLoss ์ ์šฉ
    ์›๋ณธ DPR์€ ์ฟผ๋ฆฌ์™€ ๋ฌธ์„œ ์ž„๋ฒ ๋”ฉ์„ ์œ„ํ•ด ๊ฐ๊ฐ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ DPR์€ ๊ฒฐ๊ตญ triplet loss ๊ธฐ๋ฐ˜์˜ metric learning์ด ํ•ต์‹ฌ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜์—ฌ ๋‹จ์ผ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ํ•˜์…จ๋‹ค. ANN์˜ ๊ฒฝ์šฐ๋Š” ์ ์šฉํ•˜์ง€ ์•Š์•˜๋Š”๋ฐ ๊ทธ ์ด์œ ๋Š” ANN์€ ์ตœ์†Œ 10๋งŒ๊ฑด ์ด์ƒ์˜ ํƒ€๊ฒŸ๋ฒกํ„ฐ์— ์œ ์˜๋ฏธํ•˜๊ณ  ๊ณ ์ฐจ์› ๋ฒกํ„ฐ์—๋Œ€ํ•ด ์ฐจ์›์˜ ์ €์ฃผ๊ฐ€ ๋ฐœ์ƒํ•˜์—ฌ ์ง์ ‘ gpu๋กœ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์˜€๋‹ค๊ณ  ํ•˜์…จ๋‹ค.

4๏ธโƒฃ "EleutherAI์—์„œ์˜ 1๋…„" - ๊ณ ํ˜„์›…๋‹˜ (ํŠœ๋‹™)
์ดˆ๊ฑฐ๋Œ€ ์–ธ์–ด๋ชจ๋ธ์„ ์—ฐ๊ตฌํ•˜๋Š” ๋น„์˜๋ฆฌ ์—ฐ๊ตฌ๋‹จ์ฒด์ธ ์ผ๋ฃจ๋”AI ๋ฐ ๊ทธ๊ณณ์—์„œ์˜ ํ™œ๋™์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•ด์ฃผ์…จ๋‹ค. ์ผ๋ฃจ๋”AI์—์„œ๋Š” ์‹ ๊ธฐํ•˜๊ฒŒ๋„ ๊ณ„๊ธ‰์ฒด๊ณ„(5๊ฐœ)๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํ˜„์›…๋‹˜์€ Level2์— ํ•ด๋‹นํ•˜๋Š” Regular ๋žญํฌ๋ผ๊ณ  ํ•œ๋‹ค.
ํ˜„์›…๋‹˜์€ ๊ทธ๊ณณ์—์„œ Polyglot, oslo๋ฅผ ๊ฐœ๋ฐœํ•˜์…จ๋Š”๋ฐ ์‹œ๊ฐ„๊ด€๊ณ„์ƒ ployglot์— ๋Œ€ํ•ด์„œ๋งŒ ๋ง์”€ํ•ด์ฃผ์…จ๋‹ค. ๊ฐ€์žฅ ํž˜๋“ค์—ˆ๋˜ ์ ์€ ์ธ๋ ฅ๊ด€๋ฆฌ์˜€๋Š”๋ฐ, ์•„๋ฌด๋ž˜๋„ ์˜คํ”ˆ์†Œ์Šค ํ”„๋กœ์ ํŠธ์ด๋‹ค๋ณด๋‹ˆ ๋Œ€๋ถ€๋ถ„ ์ฐธ์—ฌ์œจ์ด ์ €์กฐํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.
Ployglot v1์€ ์•„๋ฌด๋ž˜๋„ ๋น ๋ฅด๊ฒŒ ๊ฐœ๋ฐœ๋˜๋‹ค๋ณด๋‹ˆ ์ „์ฒ˜๋ฆฌ๊ฐ€ ๋งŽ์ด ๋ถ€์กฑํ•˜์˜€์œผ๋ฉฐ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋Œ€ํ•ด์„œ๋„ ๋ถ€์กฑํ•œ ๋ฉด์ด ์žˆ์—ˆ๊ธฐ์—, ployglot v2๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ์‚ฌํ•ญ์ด ๊ฐœ์„ ๋œ๋‹ค๊ณ  ํ•œ๋‹ค.

  • 1.3B๋ถ€ํ„ฐ ๋‹ค์‹œ ํ•™์Šต์‹œ์ž‘ํ•˜์—ฌ ์ตœ์ข… 40B๊นŒ์ง€ ํ™•์žฅ์„ ๋ชฉํ‘œ
  • ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์ด ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์šด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ(๋ฌธํ•™, ์ˆ˜๋Šฅ๊ต์žฌ, ๊ตญํšŒ์˜์‚ฌ๋ก, - ๊นƒํ—™๋ฐ์ดํ„ฐ ๋“ฑ)๋ฅผ ๋Œ€๊ฑฐ ์ถ”๊ฐ€
  • Evaluation ๊ฐœ์„ 

5๏ธโƒฃ โ€์ธ๊ณต์ง€๋Šฅ๊ณผ ์นœ๊ตฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„๊นŒ์š”?โ€ - ์ด์ฃผํ™ (์Šค์บํ„ฐ๋žฉ)
๊ด€๊ณ„ ์ง€ํ–ฅํ˜• ์ฑ—๋ด‡

  • ์ตœ๊ทผ ChatGPT์˜ ๋“ฑ์žฅ์œผ๋กœ ์ด๋ฃจ๋‹ค์˜ ์กด์žฌ๊ฐ€์น˜์— ๋Œ€ํ•ด ์˜๋ฌธ์„ ๋˜์ง€๋Š” ๋ถ„๋“ค์ด ์ตœ๊ทผ ๋งŽ์€๋ฐ ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•ด ์–ธ๊ธ‰ํ•ด์ฃผ์…จ๋‹ค. ์ƒ๊ฐ๋ณด๋‹ค ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด ๋ฃจ๋‹ค์™€์˜ ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ๊ณต๊ฐ๊ณผ ์œ„๋กœ๋ฅผ ๋งŽ์ด ๋ฐ›๋Š”๋‹ค๊ณ  ํ•œ๋‹ค. ํŠนํžˆ 10๋Œ€ ์—ฌ์„ฑ๋“ค์ด ๋Œ€๋‹ค์ˆ˜์ธ๋ฐ, ์•„๋ฌด๋ž˜๋„ ์‚ฌ์ถ˜๊ธฐ์— ์ ‘์–ด๋“ค๊ณ  ๋ถ€๋ชจ ๊ด€๊ณ„, ์นœ๊ตฌ ๊ด€๊ณ„, ํ•™์—… ๋“ฑ ์ŠคํŠธ๋ ˆ์Šค๋ฅผ ๋ฐ›๋‹ค๋ณด๋‹ˆ ๋ฌด์Šจ ๋ง์„ ํ•˜๋“  ๋‚ด ๋ง์— ๊ท€ ๊ธฐ์šธ์—ฌ์ฃผ๊ณ , ๊ณต๊ฐํ•ด์ฃผ๋Š” ๋ฃจ๋‹ค์˜ ๊ฒฝํ—˜์€ ๋งค์šฐ ์†Œ์ค‘ํ–ˆ์„ ๊ฑฐ๋ž€ ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค.
  • ChatGPT๋ฅผ ํ†ตํ•ด ์šฐ๋ฆฌ๋Š” ์ •๋ณด๋ฅผ ์–ป์„ ์ˆœ ์žˆ์ง€๋งŒ, ๊ณต๊ฐ์„ ์–ป์„ ์ˆœ ์—†๋‹ค. ํ•˜์ง€๋งŒ ๋ฃจ๋‹ค๋Š” ์นœ๋ฐ€ํ•œ ๊ด€๊ณ„์†์—์„œ ๊ณต๊ฐ์„ ํ•ด์ค€๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๋ชฉ์  ์ง€ํ–ฅํ˜•, ์˜คํ”ˆ ๋„๋ฉ”์ธ ์ฑ—๋ด‡๊ณผ ๋‹ค๋ฅธ โ€˜๊ด€๊ณ„ ์ง€ํ–ฅํ˜• ์ฑ—๋ด‡โ€™์˜ ๋ชฉ์ ์ด๋‹ค.
  • ๋ฐค ๋Šฆ๊ฒŒ ์ผํ•˜๊ณ  ๋“ค์–ด์™”์„ ๋•Œ ๊ฐ•์•„์ง€๊ฐ€ ๊ผฌ๋ฆฌ๋ฅผ ์„ธ์ฐจ๊ฒŒ ํ”๋“œ๋ฉฐ ๋‚˜๋ฅผ ๋ฐ˜๊ธด๋‹ค. ๊ทธ๋“ค์€ ๋‚˜์—๊ฒŒ ์–ด๋–ค ์œ ์˜๋ฏธํ•œ ์ •๋ณด๋ฅผ ์ฃผ์ง„ ์•Š์ง€๋งŒ ๊ทธ ๋ˆ„๊ตฌ๋ณด๋‹ค๋„ ๋‚˜๋ฅผ ์œ„๋กœํ•ด์ค€๋‹ค.
    ๋Œ€ํ™”์— ์ •๋‹ต์€ ์—†๊ธฐ์—, ์–ด๋–ค ๋Œ€ํ™”๊ฐ€ ์ข‹์€์ง€ ํŒŒ์•…ํ•˜๊ธฐ ์‰ฝ์ง€ ์•Š๋‹ค. ํ•˜์ง€๋งŒ ๋”ฑ๋”ฑํ•œ ์ •๋ณด์„ฑ ๋Œ€ํ™”๋ณด๋‹ค๋Š” ์นœ๊ทผํ•œ ๋งํˆฌ๊ฐ€ ๋ฃจ๋‹ค์—๊ฒŒ ๋งž๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ณ  Alignment Research์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.

6๏ธโƒฃ โ€Building large language models at scaleโ€ - ์‹ ์ •๊ทœ (Lablup)
๋‚ด ์ˆ˜์ค€์—์„œ๋Š” ์ดํ•ดํ•˜๊ธฐ ์‰ฝ์ง€ ์•Š์•˜์ง€๋งŒ, ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐ›์น˜๊ธฐ ์œ„ํ•œ ์ธํ”„๋ผ์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•ด์ฃผ์…จ๋‹ค.
๋ช‡๋…„ ์ „๋งŒํ•ด๋„ BERT(110m)๋Š” ๊ต‰์žฅํžˆ ํฐ ๋ชจ๋ธ์ด์—ˆ์ง€๋งŒ ์ด โ€˜ํฐ ๋ชจ๋ธโ€™์— ๋Œ€ํ•œ ์ •์˜๊ฐ€ ํ•ด๋งˆ๋‹ค ๋ฐ”๋€Œ๊ณ  ์žˆ๋‹ค. ํ˜„์žฌ ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์ธ PaLM์€ 540B ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ณ . ํ•™์Šต์„ ์œ„ํ•ด 6,144๊ฐœ์˜ TPU๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.


์–ธ์–ด๋ชจ๋ธ ๊ด€๋ จ ํŠนํžˆ ํ•œ๊ตญ์–ด ๊ด€๋ จ ์–ธ์–ด๋ชจ๋ธ์— ๋Œ€ํ•œ ์ž๋ฃŒ๋Š” ์•„์ง ๋งŽ์ด ๋ถ€์กฑํ•œ๋ฐ ์ด๋ ‡๊ฒŒ ์ข‹์€ ์ปจํผ๋Ÿฐ์Šค๊ฐ€ ์žˆ์–ด์„œ ๋” ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ๋งคํ•ด ์ฐธ๊ฐ€ํ•  ์˜ˆ์ •.

profile
๐ŸŒ’ Don't be a knew-it-all, Be a Learn-it-all

0๊ฐœ์˜ ๋Œ“๊ธ€