시리즈

AI : etc

1.[AI] 메모리 사용 관련 정리

한 번의 요청에서 모델이 현재까지 보고 있어야 하는 토큰 개수다.토큰 수가 많아질수록, 각 토큰에 대한 Key/Value를 모두 저장해야 하므로 KV cache 메모리는 선형적으로 증가한다.모델 내부의 Transformer 레이어 개수다.각 레이어는 자기만의 KV ca

2026년 4월 23일