Transformer정리중Dot-Product(내적)MultiHeadEstimator$y = \\sum\_{i=1}^m \\alpha(x, x_i)y_i$Use given a kernel $K$ to get weights of labels according to loc
Reference: DSBA https://www.youtube.com/watch?v=0kgDve_vC1o&t=536s VIT 학습입니다. Inductive Bias training에서 보지 못한 데이터에 대해서도 적절한 귀납적 추론(개별 -> 보편)이 가능하도록