보통 값들이 대칭적으로 분포되지 않기 때문에, asymmetric으로 양자화 했을 때 정확도가 높다. 하지만 계산할 때 overhead가 많아지게 된다.
asymmetric으로 quantization 할 때 10-15% 추가로 연산이 필요하다.
weights는 보통 symmetric이 적절하고, activations, inputs는 asymmetric이 적절하다고 한다.
Fake quantization
Per-channel quantization vs Per-tensor quantization
clipping range는 어떻게 결정할까?
static vs dynamic quantization
Post Training Quantization(PTQ) vs Quantization Aware Training(QAT)
Uniform vs Mixed-precision quantization
DRAM에 접근하는 것은 에너지 비용이 많이 든다.
pruning은 over-parametrization일 때 효과가 있다.
pruning은 불필요한 구조를 제거하는 것이다.
pruning은 훈련 전, 훈련 중, 훈련 후에 적용 가능하다.
Pruning methods differ across many dimensions
structured vs unstructured
pruning 기준의 예
pruning에서 불필요한 구조를 확인하는 방법
Lottery ticket hypothesis
Iterative magnitude pruning
그래서 사람들은 학습을 덜 하거나 안하고 pruning을 할 수 있는 방법을 찾는다.
fine-tuning vs rewinding
Matrix와 Tensor의 분해 방법
Matrix는 선형 변환
Matrix에 적용할 수 있는 기법들
decomposition 종류
Tensor decomposition
Tucker decomposition