๐Ÿช

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de Cookies qui garantissent son bon fonctionnement.

TurboQuant: ๊ตฌ๊ธ€, AI๋ฅผ 8๋ฐฐ ๋น ๋ฅด๊ฒŒ ๋ฉ”๋ชจ๋ฆฌ๋Š” 6๋ถ„์˜ 1๋กœ
esSpanish
frFrench
enEnglish
zhChinese
jaJapanese
koKorean
hiHindi
deGerman
noNorwegian
Inicio Novedades Noticias Tutoriales Consumo Cultura Videos Virales Varios
DE EN ES FR HI JA KO NO ZH
ํŒŒ๋ž€ ์กฐ๋ช…์˜ ์„œ๋ฒ„์‹ค์ด ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์— ํ•„์š”ํ•œ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ๋‹ค

TurboQuant: ๊ตฌ๊ธ€, AI๋ฅผ 8๋ฐฐ ๋น ๋ฅด๊ฒŒ ๋ฉ”๋ชจ๋ฆฌ๋Š” 6๋ถ„์˜ 1๋กœ

Publiรฉ le 07 Avril 2026

๊ตฌ๊ธ€์ด TurboQuant๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ณต์ง€๋Šฅ ์—…๊ณ„ ์ „์ฒด์˜ ํŒ๋„๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š” ์••์ถ• ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜์˜ Amir Zandieh์™€ Vahab Mirrokni๊ฐ€ ์ด๋„๋Š” ์ด ์—ฐ๊ตฌ ์„ฑ๊ณผ๋Š” 3์›” 24์ผ ๊ถŒ์œ„ ์žˆ๋Š” ICLR 2026 ์ปจํผ๋Ÿฐ์Šค์—์„œ ๋ฐœํ‘œ๋˜์—ˆ์œผ๋ฉฐ, ํ˜„์žฌ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํฐ ๊ธฐ์ˆ ์  ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜์ธ ์—„์ฒญ๋‚œ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค.

AI๊ฐ€ ์™œ ์ด๋ ‡๊ฒŒ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋น„ํ•˜๋Š”๊ฐ€

TurboQuant์˜ ์ค‘์š”์„ฑ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ๋จผ์ € ์˜ค๋Š˜๋‚  AI์˜ ์†๋„๋ฅผ ๋Šฆ์ถ”๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. GPT, Gemini, Claude ๊ฐ™์€ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ๋งค๋ฒˆ ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด ํ‚ค-๊ฐ’(KV ์บ์‹œ)์ด๋ผ๋Š” ์ˆ˜ํ•™์  ๋ฒกํ„ฐ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋Œ€ํ™”์˜ ๊ฐ ๋‹จ์–ด๋Š” 16๋น„ํŠธ ์ •๋ฐ€๋„๋กœ ์ €์žฅ๋˜๋Š” ์ผ๋ จ์˜ ์†Œ์ˆ˜(์˜ˆ: 1.29, 0.03, -0.76, 0.91...)๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ด ์บ์‹œ๋Š” ํ…์ŠคํŠธ ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 32,000 ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ 80์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, KV ์บ์‹œ๋งŒ์œผ๋กœ๋„ ์•ฝ 4.6GB์˜ VRAM์„ ์†Œ๋น„ํ•ฉ๋‹ˆ๋‹ค. ์ข…์ข… ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์•„๋‹Œ ์บ์‹œ๊ฐ€ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ TurboQuant๊ฐ€ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

TurboQuant์˜ ์ž‘๋™ ์›๋ฆฌ

์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฒฌ๊ณ ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜ ์œ„์— ์„ธ์›Œ์ง„ ๋‘ ๊ฐ€์ง€ ์šฐ์•„ํ•œ ์ˆ˜ํ•™์  ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

1๋‹จ๊ณ„: PolarQuant โ€” ๋ฐ์ดํ„ฐ ์žฌ๊ตฌ์„ฑ

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ์— ๋ฌด์ž‘์œ„ ํšŒ์ „์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ณ ์ „์ ์ธ ์ง๊ต ์ขŒํ‘œ๋ฅผ ๊ทน์ขŒํ‘œ(๋ฐ˜์ง€๋ฆ„ + ๊ฐ๋„)๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, PolarQuant๋Š” ๊ฐ ๋ฒกํ„ฐ์˜ ์—๋„ˆ์ง€๋ฅผ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ์— ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š”? Lloyd-Max ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•œ ์ตœ์  ์–‘์žํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ํ†ต๊ณ„ ๋ถ„ํฌ๊ฐ€ ์ƒ์„ฑ๋˜๋ฉฐ, ๋Œ€์ƒ ๋ชจ๋ธ์—์„œ ์•„๋ฌด๊ฒƒ๋„ ๋ณด์ •ํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„๋Š” ๋˜ํ•œ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์ •๊ทœํ™” ์ƒ์ˆ˜๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•  ํ•„์š”์„ฑ์„ ์—†์•ฑ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: QJL โ€” ์ž”์—ฌ ์˜ค๋ฅ˜ ์ˆ˜์ •

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์ฒซ ๋ฒˆ์งธ ์••์ถ•์—์„œ ๋‚จ์€ ์ž”์—ฌ ์˜ค๋ฅ˜๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์–‘์žํ™” Johnson-Lindenstrauss(QJL) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ์˜ค๋ฅ˜๋ฅผ ์ˆ˜ํ•™์  ๋ณ€ํ™˜์„ ํ†ตํ•ด ํˆฌ์˜ํ•œ ํ›„ ์š”์†Œ๋‹น ๋‹จ 1๋น„ํŠธ์ธ ๋ถ€ํ˜ธ(+1 ๋˜๋Š” -1)๋งŒ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณด์ •์€ ์–ดํ…์…˜ ์ ์ˆ˜ ์ถ”์ •์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถˆํŽธ(unbiased)ํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๋‹ค.

์ˆซ์ž๋กœ ๋ณด๋Š” ์„ฑ๊ณผ

๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜๊ฐ€ ๋ฐœํ‘œํ•œ ์„ฑ๋Šฅ ์ˆ˜์น˜๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค:

  • ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ •๋ฐ€๋„ ์†์‹ค ์—†์ด KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ 6๋ฐฐ ๊ฐ์†Œ
  • ์žฌํ›ˆ๋ จ ์—†์ด ์บ์‹œ๋ฅผ ์š”์†Œ๋‹น 3๋น„ํŠธ๋กœ ์••์ถ•(์ผ๋ฐ˜์ ์œผ๋กœ 16๋น„ํŠธ)
  • 32๋น„ํŠธ ๋น„์–‘์žํ™” ํ‚ค ๋Œ€๋น„ NVIDIA H100 GPU์—์„œ ์ตœ๋Œ€ 8๋ฐฐ ์†๋„ ํ–ฅ์ƒ
  • LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval ๋ฒค์น˜๋งˆํฌ์—์„œ ์›๋ณธ ์ •๋ฐ€๋„์™€ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๋Šฅ

ํ…Œ์ŠคํŠธ๋Š” Gemma์™€ Mistral ๋ชจ๋ธ์—์„œ ์ง„ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ์งˆ๋ฌธ ๋‹ต๋ณ€, ์ฝ”๋“œ ์ƒ์„ฑ, ํ…์ŠคํŠธ ์š”์•ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

๊ฒŒ์ž„์„ ๋ฐ”๊พธ๋Š” ์„ธ ๊ฐ€์ง€ ์žฅ์ 

ํ›ˆ๋ จ ๋ถˆํ•„์š”. ๋‹ค๋ฅธ ์••์ถ• ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ TurboQuant๋Š” ํŒŒ์ธํŠœ๋‹์ด๋‚˜ ๋ณด์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ชจ๋“  Transformer ๋ชจ๋ธ์— ๊ทธ๋Œ€๋กœ ์ง์ ‘ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋ฌด๊ด€. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋“  Transformer ์•„ํ‚คํ…์ฒ˜์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. Gemini, Llama, Mistral ๋˜๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ ์‘์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ฌด๊ด€. TurboQuant๋Š” ์†Œ์œ„ "๋ฐ์ดํ„ฐ ๋น„์ธ์‹"์ž…๋‹ˆ๋‹ค: ์ฒ˜๋ฆฌ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์— ๊ด€๊ณ„์—†์ด ์ด๋ก ์  ๋ณด์žฅ์ด ์„ฑ๋ฆฝํ•ฉ๋‹ˆ๋‹ค. ์ž‘๋™์„ ์œ„ํ•œ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๊ฐœ๋ฐœ์ž๋ฅผ ์œ„ํ•œ ์‹ค์งˆ์  ์˜ํ–ฅ

์‹ค์ œ๋กœ TurboQuant๋Š” ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. 4๋น„ํŠธ ์–‘์žํ™” ๊ฐ€์ค‘์น˜์™€ 4๋น„ํŠธ ์••์ถ• KV ์บ์‹œ๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์ด์ „์—๋Š” ์ƒ๊ฐํ•  ์ˆ˜ ์—†์—ˆ๋˜ ๊ตฌ์„ฑ์ด ์ผ๋ฐ˜ ๊ฒŒ์ด๋ฐ ๊ทธ๋ž˜ํ”ฝ ์นด๋“œ์—์„œ ์‹คํ˜„ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค: HuggingFace, llama.cpp, vLLM ํ˜ธํ™˜ ๋ฒ„์ „๊ณผ ๋…๋ฆฝํ˜• Rust ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ๊ตฌํ˜„์ด ์ด๋ฏธ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ๋Š” ๋ช‡ ์ค„๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

์Šค์œ„ํŠธ ์ŠคํŒŸ์€ 4๋น„ํŠธ๋กœ, 30์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ์ด์ƒ์˜ ๋ชจ๋ธ์—์„œ๋Š” ํ’ˆ์งˆ์ด FP16๊ณผ ๊ตฌ๋ณ„์ด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. 3๋น„ํŠธ์—์„œ๋Š” ์†Œํ˜• ๋ชจ๋ธ(16์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏธ๋งŒ)์—์„œ ์•ฝ๊ฐ„์˜ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

AI ์‚ฐ์—…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

์ž ์žฌ์  ์˜ํ–ฅ์€ ๊ฐœ๋ฐœ์ž ์„ธ๊ณ„๋ฅผ ํ›จ์”ฌ ๋„˜์–ด์„ญ๋‹ˆ๋‹ค. TurboQuant๊ฐ€ ์ผ๋ฐ˜ํ™”๋œ๋‹ค๋ฉด(๋ชจ๋“  ์ง•ํ›„๊ฐ€ ๊ทธ๋ ‡๊ฒŒ ๋  ๊ฒƒ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค), AI ๋ชจ๋ธ ์ถ”๋ก  ๋น„์šฉ์ด 50% ์ด์ƒ ๊ฐ์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Google Cloud, AWS, Azure ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค๋Š” ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด๋กœ ๋” ๋งŽ์€ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๊ทœ๋ชจ์˜ ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ์˜ ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰์ด ํ›จ์”ฌ ํšจ์œจ์ ์ด ๋ฉ๋‹ˆ๋‹ค.

๋‹น์—ฐํžˆ ์ด ๋ฐœํ‘œ๋Š” ๊ธˆ์œต ์‹œ์žฅ์—์„œ ์ด๋ฏธ ๋ฐ˜์‘์„ ๋ถˆ๋Ÿฌ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค: ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ ์ˆ˜์š” ๊ฐ์†Œ๋ฅผ ์˜ˆ์ƒํ•˜๋Š” ํˆฌ์ž์ž๋“ค๋กœ ์ธํ•ด ๋ฉ”๋ชจ๋ฆฌ ์นฉ ์ œ์กฐ์—…์ฒด์˜ ์ฃผ๊ฐ€๊ฐ€ ํ•˜๋ฝํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ถ„์„๊ฐ€๋“ค์€ ๊ทธ ์˜ํ–ฅ์„ 2025๋…„ ์ดˆ DeepSeek๊ณผ ๋น„๊ตํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

TurboQuant๋Š” ์ผ๋ฐ˜ ๋Œ€์ค‘ ๋ฏธ๋””์–ด์˜ ํ—ค๋“œ๋ผ์ธ์„ ์žฅ์‹ํ•˜์ง€ ์•Š์ง€๋งŒ, ์กฐ์šฉํžˆ ์‚ฐ์—… ์ „์ฒด๋ฅผ ๋ณ€ํ™˜์‹œํ‚ค๋Š” ์œ ํ˜•์˜ ๊ธฐ์ˆ  ๋ฐœ์ „์ž…๋‹ˆ๋‹ค. ํ’ˆ์งˆ ์†์‹ค ์—†์ด, ์žฌํ›ˆ๋ จ ์—†์ด AI์˜ ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 6~8๋ฐฐ ์••์ถ•ํ•จ์œผ๋กœ์จ, ๊ตฌ๊ธ€์€ ์ธ๊ณต์ง€๋Šฅ์„ ํ›จ์”ฌ ๋” ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๊ณ  ํ›จ์”ฌ ๋” ์ €๋ ดํ•˜๊ฒŒ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Tags
TurboQuant
๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜
AI ์••์ถ•
KV ์บ์‹œ
ICLR 2026
LLM ์ถ”๋ก 
Envoyer ร  un ami
Signaler cet article
A propos de l'auteur
ํŒŒ๋ž€ ์กฐ๋ช…์˜ ์„œ๋ฒ„์‹ค์ด ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์— ํ•„์š”ํ•œ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ๋‹ค

TurboQuant: ๊ตฌ๊ธ€, AI๋ฅผ 8๋ฐฐ ๋น ๋ฅด๊ฒŒ ๋ฉ”๋ชจ๋ฆฌ๋Š” 6๋ถ„์˜ 1๋กœ

Publiรฉ le 07 Avril 2026

๊ตฌ๊ธ€์ด TurboQuant๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ณต์ง€๋Šฅ ์—…๊ณ„ ์ „์ฒด์˜ ํŒ๋„๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š” ์••์ถ• ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜์˜ Amir Zandieh์™€ Vahab Mirrokni๊ฐ€ ์ด๋„๋Š” ์ด ์—ฐ๊ตฌ ์„ฑ๊ณผ๋Š” 3์›” 24์ผ ๊ถŒ์œ„ ์žˆ๋Š” ICLR 2026 ์ปจํผ๋Ÿฐ์Šค์—์„œ ๋ฐœํ‘œ๋˜์—ˆ์œผ๋ฉฐ, ํ˜„์žฌ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํฐ ๊ธฐ์ˆ ์  ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜์ธ ์—„์ฒญ๋‚œ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค.

AI๊ฐ€ ์™œ ์ด๋ ‡๊ฒŒ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋น„ํ•˜๋Š”๊ฐ€

TurboQuant์˜ ์ค‘์š”์„ฑ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ๋จผ์ € ์˜ค๋Š˜๋‚  AI์˜ ์†๋„๋ฅผ ๋Šฆ์ถ”๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. GPT, Gemini, Claude ๊ฐ™์€ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ๋งค๋ฒˆ ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด ํ‚ค-๊ฐ’(KV ์บ์‹œ)์ด๋ผ๋Š” ์ˆ˜ํ•™์  ๋ฒกํ„ฐ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋Œ€ํ™”์˜ ๊ฐ ๋‹จ์–ด๋Š” 16๋น„ํŠธ ์ •๋ฐ€๋„๋กœ ์ €์žฅ๋˜๋Š” ์ผ๋ จ์˜ ์†Œ์ˆ˜(์˜ˆ: 1.29, 0.03, -0.76, 0.91...)๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ด ์บ์‹œ๋Š” ํ…์ŠคํŠธ ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 32,000 ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ 80์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, KV ์บ์‹œ๋งŒ์œผ๋กœ๋„ ์•ฝ 4.6GB์˜ VRAM์„ ์†Œ๋น„ํ•ฉ๋‹ˆ๋‹ค. ์ข…์ข… ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์•„๋‹Œ ์บ์‹œ๊ฐ€ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ TurboQuant๊ฐ€ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

TurboQuant์˜ ์ž‘๋™ ์›๋ฆฌ

์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฒฌ๊ณ ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜ ์œ„์— ์„ธ์›Œ์ง„ ๋‘ ๊ฐ€์ง€ ์šฐ์•„ํ•œ ์ˆ˜ํ•™์  ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

1๋‹จ๊ณ„: PolarQuant โ€” ๋ฐ์ดํ„ฐ ์žฌ๊ตฌ์„ฑ

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ์— ๋ฌด์ž‘์œ„ ํšŒ์ „์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ณ ์ „์ ์ธ ์ง๊ต ์ขŒํ‘œ๋ฅผ ๊ทน์ขŒํ‘œ(๋ฐ˜์ง€๋ฆ„ + ๊ฐ๋„)๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, PolarQuant๋Š” ๊ฐ ๋ฒกํ„ฐ์˜ ์—๋„ˆ์ง€๋ฅผ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ์— ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š”? Lloyd-Max ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•œ ์ตœ์  ์–‘์žํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ํ†ต๊ณ„ ๋ถ„ํฌ๊ฐ€ ์ƒ์„ฑ๋˜๋ฉฐ, ๋Œ€์ƒ ๋ชจ๋ธ์—์„œ ์•„๋ฌด๊ฒƒ๋„ ๋ณด์ •ํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„๋Š” ๋˜ํ•œ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์ •๊ทœํ™” ์ƒ์ˆ˜๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•  ํ•„์š”์„ฑ์„ ์—†์•ฑ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: QJL โ€” ์ž”์—ฌ ์˜ค๋ฅ˜ ์ˆ˜์ •

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์ฒซ ๋ฒˆ์งธ ์••์ถ•์—์„œ ๋‚จ์€ ์ž”์—ฌ ์˜ค๋ฅ˜๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์–‘์žํ™” Johnson-Lindenstrauss(QJL) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ์˜ค๋ฅ˜๋ฅผ ์ˆ˜ํ•™์  ๋ณ€ํ™˜์„ ํ†ตํ•ด ํˆฌ์˜ํ•œ ํ›„ ์š”์†Œ๋‹น ๋‹จ 1๋น„ํŠธ์ธ ๋ถ€ํ˜ธ(+1 ๋˜๋Š” -1)๋งŒ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณด์ •์€ ์–ดํ…์…˜ ์ ์ˆ˜ ์ถ”์ •์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถˆํŽธ(unbiased)ํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๋‹ค.

์ˆซ์ž๋กœ ๋ณด๋Š” ์„ฑ๊ณผ

๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜๊ฐ€ ๋ฐœํ‘œํ•œ ์„ฑ๋Šฅ ์ˆ˜์น˜๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค:

  • ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ •๋ฐ€๋„ ์†์‹ค ์—†์ด KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ 6๋ฐฐ ๊ฐ์†Œ
  • ์žฌํ›ˆ๋ จ ์—†์ด ์บ์‹œ๋ฅผ ์š”์†Œ๋‹น 3๋น„ํŠธ๋กœ ์••์ถ•(์ผ๋ฐ˜์ ์œผ๋กœ 16๋น„ํŠธ)
  • 32๋น„ํŠธ ๋น„์–‘์žํ™” ํ‚ค ๋Œ€๋น„ NVIDIA H100 GPU์—์„œ ์ตœ๋Œ€ 8๋ฐฐ ์†๋„ ํ–ฅ์ƒ
  • LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval ๋ฒค์น˜๋งˆํฌ์—์„œ ์›๋ณธ ์ •๋ฐ€๋„์™€ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๋Šฅ

ํ…Œ์ŠคํŠธ๋Š” Gemma์™€ Mistral ๋ชจ๋ธ์—์„œ ์ง„ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ์งˆ๋ฌธ ๋‹ต๋ณ€, ์ฝ”๋“œ ์ƒ์„ฑ, ํ…์ŠคํŠธ ์š”์•ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

๊ฒŒ์ž„์„ ๋ฐ”๊พธ๋Š” ์„ธ ๊ฐ€์ง€ ์žฅ์ 

ํ›ˆ๋ จ ๋ถˆํ•„์š”. ๋‹ค๋ฅธ ์••์ถ• ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ TurboQuant๋Š” ํŒŒ์ธํŠœ๋‹์ด๋‚˜ ๋ณด์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ชจ๋“  Transformer ๋ชจ๋ธ์— ๊ทธ๋Œ€๋กœ ์ง์ ‘ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋ฌด๊ด€. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋“  Transformer ์•„ํ‚คํ…์ฒ˜์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. Gemini, Llama, Mistral ๋˜๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ ์‘์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ฌด๊ด€. TurboQuant๋Š” ์†Œ์œ„ "๋ฐ์ดํ„ฐ ๋น„์ธ์‹"์ž…๋‹ˆ๋‹ค: ์ฒ˜๋ฆฌ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์— ๊ด€๊ณ„์—†์ด ์ด๋ก ์  ๋ณด์žฅ์ด ์„ฑ๋ฆฝํ•ฉ๋‹ˆ๋‹ค. ์ž‘๋™์„ ์œ„ํ•œ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๊ฐœ๋ฐœ์ž๋ฅผ ์œ„ํ•œ ์‹ค์งˆ์  ์˜ํ–ฅ

์‹ค์ œ๋กœ TurboQuant๋Š” ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. 4๋น„ํŠธ ์–‘์žํ™” ๊ฐ€์ค‘์น˜์™€ 4๋น„ํŠธ ์••์ถ• KV ์บ์‹œ๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์ด์ „์—๋Š” ์ƒ๊ฐํ•  ์ˆ˜ ์—†์—ˆ๋˜ ๊ตฌ์„ฑ์ด ์ผ๋ฐ˜ ๊ฒŒ์ด๋ฐ ๊ทธ๋ž˜ํ”ฝ ์นด๋“œ์—์„œ ์‹คํ˜„ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค: HuggingFace, llama.cpp, vLLM ํ˜ธํ™˜ ๋ฒ„์ „๊ณผ ๋…๋ฆฝํ˜• Rust ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ๊ตฌํ˜„์ด ์ด๋ฏธ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ๋Š” ๋ช‡ ์ค„๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

์Šค์œ„ํŠธ ์ŠคํŒŸ์€ 4๋น„ํŠธ๋กœ, 30์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ์ด์ƒ์˜ ๋ชจ๋ธ์—์„œ๋Š” ํ’ˆ์งˆ์ด FP16๊ณผ ๊ตฌ๋ณ„์ด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. 3๋น„ํŠธ์—์„œ๋Š” ์†Œํ˜• ๋ชจ๋ธ(16์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏธ๋งŒ)์—์„œ ์•ฝ๊ฐ„์˜ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

AI ์‚ฐ์—…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

์ž ์žฌ์  ์˜ํ–ฅ์€ ๊ฐœ๋ฐœ์ž ์„ธ๊ณ„๋ฅผ ํ›จ์”ฌ ๋„˜์–ด์„ญ๋‹ˆ๋‹ค. TurboQuant๊ฐ€ ์ผ๋ฐ˜ํ™”๋œ๋‹ค๋ฉด(๋ชจ๋“  ์ง•ํ›„๊ฐ€ ๊ทธ๋ ‡๊ฒŒ ๋  ๊ฒƒ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค), AI ๋ชจ๋ธ ์ถ”๋ก  ๋น„์šฉ์ด 50% ์ด์ƒ ๊ฐ์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Google Cloud, AWS, Azure ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค๋Š” ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด๋กœ ๋” ๋งŽ์€ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๊ทœ๋ชจ์˜ ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ์˜ ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰์ด ํ›จ์”ฌ ํšจ์œจ์ ์ด ๋ฉ๋‹ˆ๋‹ค.

๋‹น์—ฐํžˆ ์ด ๋ฐœํ‘œ๋Š” ๊ธˆ์œต ์‹œ์žฅ์—์„œ ์ด๋ฏธ ๋ฐ˜์‘์„ ๋ถˆ๋Ÿฌ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค: ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ ์ˆ˜์š” ๊ฐ์†Œ๋ฅผ ์˜ˆ์ƒํ•˜๋Š” ํˆฌ์ž์ž๋“ค๋กœ ์ธํ•ด ๋ฉ”๋ชจ๋ฆฌ ์นฉ ์ œ์กฐ์—…์ฒด์˜ ์ฃผ๊ฐ€๊ฐ€ ํ•˜๋ฝํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ถ„์„๊ฐ€๋“ค์€ ๊ทธ ์˜ํ–ฅ์„ 2025๋…„ ์ดˆ DeepSeek๊ณผ ๋น„๊ตํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

TurboQuant๋Š” ์ผ๋ฐ˜ ๋Œ€์ค‘ ๋ฏธ๋””์–ด์˜ ํ—ค๋“œ๋ผ์ธ์„ ์žฅ์‹ํ•˜์ง€ ์•Š์ง€๋งŒ, ์กฐ์šฉํžˆ ์‚ฐ์—… ์ „์ฒด๋ฅผ ๋ณ€ํ™˜์‹œํ‚ค๋Š” ์œ ํ˜•์˜ ๊ธฐ์ˆ  ๋ฐœ์ „์ž…๋‹ˆ๋‹ค. ํ’ˆ์งˆ ์†์‹ค ์—†์ด, ์žฌํ›ˆ๋ จ ์—†์ด AI์˜ ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 6~8๋ฐฐ ์••์ถ•ํ•จ์œผ๋กœ์จ, ๊ตฌ๊ธ€์€ ์ธ๊ณต์ง€๋Šฅ์„ ํ›จ์”ฌ ๋” ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๊ณ  ํ›จ์”ฌ ๋” ์ €๋ ดํ•˜๊ฒŒ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Tags
TurboQuant
๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜
AI ์••์ถ•
KV ์บ์‹œ
ICLR 2026
LLM ์ถ”๋ก 
Envoyer ร  un ami
Signaler cet article
A propos de l'auteur
ํŒŒ๋ž€ ์กฐ๋ช…์˜ ์„œ๋ฒ„์‹ค์ด ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์— ํ•„์š”ํ•œ ์ปดํ“จํŒ… ์ธํ”„๋ผ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ๋‹ค

TurboQuant: ๊ตฌ๊ธ€, AI๋ฅผ 8๋ฐฐ ๋น ๋ฅด๊ฒŒ ๋ฉ”๋ชจ๋ฆฌ๋Š” 6๋ถ„์˜ 1๋กœ

Publiรฉ le 07 Avril 2026

๊ตฌ๊ธ€์ด TurboQuant๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ณต์ง€๋Šฅ ์—…๊ณ„ ์ „์ฒด์˜ ํŒ๋„๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š” ์••์ถ• ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜์˜ Amir Zandieh์™€ Vahab Mirrokni๊ฐ€ ์ด๋„๋Š” ์ด ์—ฐ๊ตฌ ์„ฑ๊ณผ๋Š” 3์›” 24์ผ ๊ถŒ์œ„ ์žˆ๋Š” ICLR 2026 ์ปจํผ๋Ÿฐ์Šค์—์„œ ๋ฐœํ‘œ๋˜์—ˆ์œผ๋ฉฐ, ํ˜„์žฌ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํฐ ๊ธฐ์ˆ ์  ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜์ธ ์—„์ฒญ๋‚œ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค.

AI๊ฐ€ ์™œ ์ด๋ ‡๊ฒŒ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋น„ํ•˜๋Š”๊ฐ€

TurboQuant์˜ ์ค‘์š”์„ฑ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ๋จผ์ € ์˜ค๋Š˜๋‚  AI์˜ ์†๋„๋ฅผ ๋Šฆ์ถ”๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. GPT, Gemini, Claude ๊ฐ™์€ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ๋งค๋ฒˆ ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ์ƒ์„ฑ๋œ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด ํ‚ค-๊ฐ’(KV ์บ์‹œ)์ด๋ผ๋Š” ์ˆ˜ํ•™์  ๋ฒกํ„ฐ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋Œ€ํ™”์˜ ๊ฐ ๋‹จ์–ด๋Š” 16๋น„ํŠธ ์ •๋ฐ€๋„๋กœ ์ €์žฅ๋˜๋Š” ์ผ๋ จ์˜ ์†Œ์ˆ˜(์˜ˆ: 1.29, 0.03, -0.76, 0.91...)๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ด ์บ์‹œ๋Š” ํ…์ŠคํŠธ ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 32,000 ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ 80์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, KV ์บ์‹œ๋งŒ์œผ๋กœ๋„ ์•ฝ 4.6GB์˜ VRAM์„ ์†Œ๋น„ํ•ฉ๋‹ˆ๋‹ค. ์ข…์ข… ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์•„๋‹Œ ์บ์‹œ๊ฐ€ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ TurboQuant๊ฐ€ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

TurboQuant์˜ ์ž‘๋™ ์›๋ฆฌ

์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฒฌ๊ณ ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜ ์œ„์— ์„ธ์›Œ์ง„ ๋‘ ๊ฐ€์ง€ ์šฐ์•„ํ•œ ์ˆ˜ํ•™์  ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

1๋‹จ๊ณ„: PolarQuant โ€” ๋ฐ์ดํ„ฐ ์žฌ๊ตฌ์„ฑ

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ์— ๋ฌด์ž‘์œ„ ํšŒ์ „์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ณ ์ „์ ์ธ ์ง๊ต ์ขŒํ‘œ๋ฅผ ๊ทน์ขŒํ‘œ(๋ฐ˜์ง€๋ฆ„ + ๊ฐ๋„)๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, PolarQuant๋Š” ๊ฐ ๋ฒกํ„ฐ์˜ ์—๋„ˆ์ง€๋ฅผ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ์— ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š”? Lloyd-Max ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•œ ์ตœ์  ์–‘์žํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ํ†ต๊ณ„ ๋ถ„ํฌ๊ฐ€ ์ƒ์„ฑ๋˜๋ฉฐ, ๋Œ€์ƒ ๋ชจ๋ธ์—์„œ ์•„๋ฌด๊ฒƒ๋„ ๋ณด์ •ํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„๋Š” ๋˜ํ•œ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์ •๊ทœํ™” ์ƒ์ˆ˜๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•  ํ•„์š”์„ฑ์„ ์—†์•ฑ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: QJL โ€” ์ž”์—ฌ ์˜ค๋ฅ˜ ์ˆ˜์ •

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์ฒซ ๋ฒˆ์งธ ์••์ถ•์—์„œ ๋‚จ์€ ์ž”์—ฌ ์˜ค๋ฅ˜๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์–‘์žํ™” Johnson-Lindenstrauss(QJL) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ์˜ค๋ฅ˜๋ฅผ ์ˆ˜ํ•™์  ๋ณ€ํ™˜์„ ํ†ตํ•ด ํˆฌ์˜ํ•œ ํ›„ ์š”์†Œ๋‹น ๋‹จ 1๋น„ํŠธ์ธ ๋ถ€ํ˜ธ(+1 ๋˜๋Š” -1)๋งŒ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณด์ •์€ ์–ดํ…์…˜ ์ ์ˆ˜ ์ถ”์ •์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถˆํŽธ(unbiased)ํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๋‹ค.

์ˆซ์ž๋กœ ๋ณด๋Š” ์„ฑ๊ณผ

๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜๊ฐ€ ๋ฐœํ‘œํ•œ ์„ฑ๋Šฅ ์ˆ˜์น˜๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค:

  • ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ •๋ฐ€๋„ ์†์‹ค ์—†์ด KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ 6๋ฐฐ ๊ฐ์†Œ
  • ์žฌํ›ˆ๋ จ ์—†์ด ์บ์‹œ๋ฅผ ์š”์†Œ๋‹น 3๋น„ํŠธ๋กœ ์••์ถ•(์ผ๋ฐ˜์ ์œผ๋กœ 16๋น„ํŠธ)
  • 32๋น„ํŠธ ๋น„์–‘์žํ™” ํ‚ค ๋Œ€๋น„ NVIDIA H100 GPU์—์„œ ์ตœ๋Œ€ 8๋ฐฐ ์†๋„ ํ–ฅ์ƒ
  • LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval ๋ฒค์น˜๋งˆํฌ์—์„œ ์›๋ณธ ์ •๋ฐ€๋„์™€ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๋Šฅ

ํ…Œ์ŠคํŠธ๋Š” Gemma์™€ Mistral ๋ชจ๋ธ์—์„œ ์ง„ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ์งˆ๋ฌธ ๋‹ต๋ณ€, ์ฝ”๋“œ ์ƒ์„ฑ, ํ…์ŠคํŠธ ์š”์•ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

๊ฒŒ์ž„์„ ๋ฐ”๊พธ๋Š” ์„ธ ๊ฐ€์ง€ ์žฅ์ 

ํ›ˆ๋ จ ๋ถˆํ•„์š”. ๋‹ค๋ฅธ ์••์ถ• ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ TurboQuant๋Š” ํŒŒ์ธํŠœ๋‹์ด๋‚˜ ๋ณด์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ชจ๋“  Transformer ๋ชจ๋ธ์— ๊ทธ๋Œ€๋กœ ์ง์ ‘ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋ฌด๊ด€. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋“  Transformer ์•„ํ‚คํ…์ฒ˜์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. Gemini, Llama, Mistral ๋˜๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ ์‘์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ฌด๊ด€. TurboQuant๋Š” ์†Œ์œ„ "๋ฐ์ดํ„ฐ ๋น„์ธ์‹"์ž…๋‹ˆ๋‹ค: ์ฒ˜๋ฆฌ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์— ๊ด€๊ณ„์—†์ด ์ด๋ก ์  ๋ณด์žฅ์ด ์„ฑ๋ฆฝํ•ฉ๋‹ˆ๋‹ค. ์ž‘๋™์„ ์œ„ํ•œ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๊ฐœ๋ฐœ์ž๋ฅผ ์œ„ํ•œ ์‹ค์งˆ์  ์˜ํ–ฅ

์‹ค์ œ๋กœ TurboQuant๋Š” ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. 4๋น„ํŠธ ์–‘์žํ™” ๊ฐ€์ค‘์น˜์™€ 4๋น„ํŠธ ์••์ถ• KV ์บ์‹œ๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์ด์ „์—๋Š” ์ƒ๊ฐํ•  ์ˆ˜ ์—†์—ˆ๋˜ ๊ตฌ์„ฑ์ด ์ผ๋ฐ˜ ๊ฒŒ์ด๋ฐ ๊ทธ๋ž˜ํ”ฝ ์นด๋“œ์—์„œ ์‹คํ˜„ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค: HuggingFace, llama.cpp, vLLM ํ˜ธํ™˜ ๋ฒ„์ „๊ณผ ๋…๋ฆฝํ˜• Rust ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ๊ตฌํ˜„์ด ์ด๋ฏธ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ๋Š” ๋ช‡ ์ค„๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

์Šค์œ„ํŠธ ์ŠคํŒŸ์€ 4๋น„ํŠธ๋กœ, 30์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ์ด์ƒ์˜ ๋ชจ๋ธ์—์„œ๋Š” ํ’ˆ์งˆ์ด FP16๊ณผ ๊ตฌ๋ณ„์ด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. 3๋น„ํŠธ์—์„œ๋Š” ์†Œํ˜• ๋ชจ๋ธ(16์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏธ๋งŒ)์—์„œ ์•ฝ๊ฐ„์˜ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

AI ์‚ฐ์—…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

์ž ์žฌ์  ์˜ํ–ฅ์€ ๊ฐœ๋ฐœ์ž ์„ธ๊ณ„๋ฅผ ํ›จ์”ฌ ๋„˜์–ด์„ญ๋‹ˆ๋‹ค. TurboQuant๊ฐ€ ์ผ๋ฐ˜ํ™”๋œ๋‹ค๋ฉด(๋ชจ๋“  ์ง•ํ›„๊ฐ€ ๊ทธ๋ ‡๊ฒŒ ๋  ๊ฒƒ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค), AI ๋ชจ๋ธ ์ถ”๋ก  ๋น„์šฉ์ด 50% ์ด์ƒ ๊ฐ์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Google Cloud, AWS, Azure ๊ฐ™์€ ํด๋ผ์šฐ๋“œ ์„œ๋น„์Šค๋Š” ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด๋กœ ๋” ๋งŽ์€ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๊ทœ๋ชจ์˜ ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ์˜ ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰์ด ํ›จ์”ฌ ํšจ์œจ์ ์ด ๋ฉ๋‹ˆ๋‹ค.

๋‹น์—ฐํžˆ ์ด ๋ฐœํ‘œ๋Š” ๊ธˆ์œต ์‹œ์žฅ์—์„œ ์ด๋ฏธ ๋ฐ˜์‘์„ ๋ถˆ๋Ÿฌ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค: ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ ์ˆ˜์š” ๊ฐ์†Œ๋ฅผ ์˜ˆ์ƒํ•˜๋Š” ํˆฌ์ž์ž๋“ค๋กœ ์ธํ•ด ๋ฉ”๋ชจ๋ฆฌ ์นฉ ์ œ์กฐ์—…์ฒด์˜ ์ฃผ๊ฐ€๊ฐ€ ํ•˜๋ฝํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ถ„์„๊ฐ€๋“ค์€ ๊ทธ ์˜ํ–ฅ์„ 2025๋…„ ์ดˆ DeepSeek๊ณผ ๋น„๊ตํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

TurboQuant๋Š” ์ผ๋ฐ˜ ๋Œ€์ค‘ ๋ฏธ๋””์–ด์˜ ํ—ค๋“œ๋ผ์ธ์„ ์žฅ์‹ํ•˜์ง€ ์•Š์ง€๋งŒ, ์กฐ์šฉํžˆ ์‚ฐ์—… ์ „์ฒด๋ฅผ ๋ณ€ํ™˜์‹œํ‚ค๋Š” ์œ ํ˜•์˜ ๊ธฐ์ˆ  ๋ฐœ์ „์ž…๋‹ˆ๋‹ค. ํ’ˆ์งˆ ์†์‹ค ์—†์ด, ์žฌํ›ˆ๋ จ ์—†์ด AI์˜ ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 6~8๋ฐฐ ์••์ถ•ํ•จ์œผ๋กœ์จ, ๊ตฌ๊ธ€์€ ์ธ๊ณต์ง€๋Šฅ์„ ํ›จ์”ฌ ๋” ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๊ณ  ํ›จ์”ฌ ๋” ์ €๋ ดํ•˜๊ฒŒ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Tags
TurboQuant
๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜
AI ์••์ถ•
KV ์บ์‹œ
ICLR 2026
LLM ์ถ”๋ก 
Envoyer ร  un ami
Signaler cet article
A propos de l'auteur