# Knowledge distillation

18개의 포스트
post-thumbnail

[졸업프로젝트] Similarity based knowledge distillation method for light camera pose regressor

지난 [졸업프로젝트] PoseNet 경량화를 통한 Jetson Nano RC카의 실내 자율주행 구현 이후의 프로젝트 진행 과정에 대한 포스팅입니다. 저번 2022-2에 저희 팀은 Camera Pose Estimation 모델인 PoseNet을 Knowledge Distillation 을 통해 경량화하는 프로젝트를 진행했습니다. 프로젝트를 진행하며 다음의 프로젝트의 변경사항이 있었습니다. > - GoogLeNet Backbone인 PoseNet이 아닌 ResNet을 Backbone으로 하는 Camera Pose Estimation 모델을 만들어 해당 모델을 경량화하는 프로젝트로 변경했습니다. 이 이유는 Knowledge Distillation 의 경우 Distillation 이 Teacher와 Student 모델의 module

2023년 5월 16일
·
0개의 댓글
·
post-thumbnail

[CV] Training Technique

Tranining Teqhnique in CV Data Augmentation Leveraging pre-trained information Leveraging unlabed dataset for training Data Agmentation Training set과 Real data distribution간에는 gap이 존재한다. Train set의 경우 biased 된 경우가 대부분이다. 이들을 시각화해서 고려하면 실제 데이터의 경우 높은 dense를 이루면서 분포 상에 공백이 없을 것이다. 반면 훈련 데이터의 경우 point 형태로 공백이 많을 것이다. 모델의 경우 훈련 데이터 상의 point 들에 biased 돼서 학습된다. Augmentation의 경우 이러한 training datset’s distribution과 real data distribution 간의 gap을 줄이는 방법으로 볼 수 있다. Image Augmentat

2023년 3월 28일
·
0개의 댓글
·
post-thumbnail

[모델 경량화 기법] Knowledge Distillation

Knowledge Distillation Knowledge Distillation란 우리말로 지식 증류로 잘 학습된 큰 네트워크(Teacher Network)의 지식을 작은 네트워크(Student Network)에 전달하는 것 1. Knowledge Distillation 개요 다수의 큰 네트워크들인 전문가(Experts, Teacher) 모델에서 출력은 일반적으로 특정 레이블에 대한 하나의 확률값 만을 나타내지만, 이를 확률값들의 분포 형태로 변형하여, 숙련가(Specialist, S

2023년 2월 20일
·
0개의 댓글
·
post-thumbnail

Sound Classification 정리 7. CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification

소개 이 글은 논문을 읽고 정리하기 위한 글입니다. 내용에 오류가 있는 부분이 있다면 조언 및 지적 언제든 환영입니다! 간단한 개념 위주로 정리할 예정입니다. 개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리해보았습니다. CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification Main Proposal Consistent Teaching 과 함께 Knowledge Distillation(KD) 를 적용하여 실험함 CNN 계열 (Efficient-B(0,2,4,6), DenseNet-121) 과 Transformer 계열 (AST-(Tiny,Small,Base)) 간에 모든 Combination 에 대한 KD 실험 결과 보여줌 ![](htt

2022년 12월 31일
·
0개의 댓글
·

부스트캠프 4주차

Data augmentation Data augmentation이 필요한 이유 Neural networks는 데이터섹은 compact한 정보만 학습 실제 데이터와 다름 학습 데이터는 실제 데이터의 극히 일부일 뿐 → Augmentation은 sample data와 real data간의 gap을 줄여주는 역할을 한다. Augmentation 종류 밝기 조절 rotate, flip crop affine tranformation cutmix rand augment(랜덤으로) Augmentation parameter 어떤 augmentation 사용할지 얼마나 강하게 적용할지 Leveraging pr

2022년 10월 14일
·
0개의 댓글
·
post-thumbnail

knowledge distillation

BERT를 학습시키기에는 필요한 데이터와 시간이 오래 걸린다. 그래서 처음부터 학습할 필요가 없는 사전 학습된 BERT를 파인 튜닝으로 시간과 비용을 줄일 수 있다. 하지만 사전 학습된 BERT를 사용하는데도 비용이 많이 들고 제한된 리소스로 모델을 실행하기에는 어려움이 있다. 이러한 문제점을 완화하기 위해서 지식 증류(knowledge distillation)라는 기법을 이용해 대형 BERT에서 소형 BERT로 지식을 전달한다. 지식 증류는 사전 학습된 대형 모델의 동작을 소형 모델에 학습시키는 압축 기술이다. 이러한 학습을 teacher-student 학습이라고도 한다. 쉽게 말해 대형 모델이 교사이고 소형 모델이 학생이 된다. 위 그림처럼 입력 문장의 마스킹 부분을 신경망을 통해 softmax로 예측하

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

PAPER REVEIW : Structural and Statistical Texture Knowledge Distillation for Semantic Segmentation

Introduction 본 논문은 Semantic Segmentation 분야의 Knowledge Distillation의 새로운 방법론을 소개한 논문이다. Semantic Segmentation 분야에서의 제안되었던 KD 방법론들은 대부분 high level에 있는 contextual knowledge에 초점을 맞춰서 지식 전이를 진행했다면 이 논문은 low level에 있는 texture knowledge에 집중하여 지식 전이를 한 논문이다. low level texture knowledge 또한 local structural의 특징을 알아내는데 중요한 요소로 작용한다. 경계선, 스무딩, 색조 대비 등과 같은 요소들은 high level에서 다룰 수 없는 요소들이다. 본 논문에서 Structural and Statistical Texture Knowledge Distllation (SSTKD) 라는 프레임워크를 제안한다. Structural Texture Knowl

2022년 9월 1일
·
0개의 댓글
·
post-thumbnail

Knowledge Distillation

Knowledge Distillation = 지식(Knowledge) + 증류(Distillation) 지식 : 어떤 대상에 대하여 배우거나 실천을 통하여 알게 된 명확한 인식이나 이해 증류 : 액체를 가열하여 생긴 기체를 냉각하여 다시 액체로 만드는 일. 여러 성분이 섞인 혼합 용액으로부터 끓는점의 차이를 이용하여 각 성분을 분리할 수 있다. 그렇다면 지식 증류란 무엇인가하면, 큰 모델(Teacher Network)로부터 증류한 지식을 작은 모델(Student Network)로 transfer하는 일련의 과정이라고 할 수 있다. Knowledge Distillation은 도대체 왜 등장했을까? 지식 증류를 처음으로 소개한 논문은 모델 배포(model deployment) 측면에서 지식 증류의 필요성을 찾고 있다. 우리가 딥러닝을 활용해 인공지능 예측 서비스를 만든다고 가정해봅시다. 연구 및 개발을 통해 만들어진 딥러닝 모델은 다량의 데이터와 복잡한 모델

2022년 7월 4일
·
0개의 댓글
·
post-thumbnail

PAPER REVIEW : Student Customized Knowledge Distillation : Bridging the Gap Between Student and Teacher

본 논문은 Knowledge Distillation 분야 중 Feature Distillation 분야와 관련된 논문이다. 논문의 저자는 "좋은 교사 모델이 학생에게 좋은 정보만 주는가"에 대해 초점을 맞춰 연구 방향성을 잡았다. 이전의 연구들에서는 좋은 교사들이 좋은 학생들을 만들어낸다고 생각하여 연구를 진행했지만 이때 교사와 학생 사이의 capacity gap이 큰 경우 성능 향상이 크게 일어나지 못하는 상황들이 빈번하게 발생했고 오히려 교사와 학생 사이의 차이가 별로 나지 않는 교사 모델의 지식 전이가 훨씬 효과가 좋은 실험들이 나왔다. 그래서 학습을 진행할 때 끝까지 진행하지 않고 중간에 학습을 멈춰 덜 완벽한 상태에서의 지식 전이를 진행하는 방법론도 제안되었다. 오히려 그러는 경우 교사 모델로부터 생성되는 부정적인 영향을 덜 받아 성능이 향상되기 때문이다. 하지만 이런 방법은 수동적으로 튜닝을 해줘야하는 방법이고 특정 모델에 특정 상황에만 적용할 수 있다. 그래서 본

2022년 7월 2일
·
0개의 댓글
·
post-thumbnail

Boosting Contrastive Learning with Relation Knowledge Distillation (AAAI/ 2022)

Motivation & Contribution 이 논문에서는 self-supervised representation learning이 large model에서는 effective함이 입증되어있지만 lightweight model에서는 여전히 supervised method와 큰 gap이 존재한다는 사실을 지적하고 있다. 또한 lightweight model이 instance-wise contrast를 수행할 때 더 쉽게 semantic space에서 collapse를 겪는 경향이 있음을 발견하였다고 한다. 이러한 문제를 해결하기 위하여, 이 논문에서는 contrastive learning을 위한 relation knowledge distillation framework를 제안하고 있다. 이 framework는 cluster-based SSL와 contrastive-based SSL을 매개하는 bridge역할을 한다. (SSL: Self-Supervised Lea

2022년 6월 26일
·
0개의 댓글
·
post-thumbnail

Paper Review : Intra-class Feature Variation Distillation for Semantic Segmentation

이 논문은 이전의 pairwise relation에서 knowledge distillation을 하던 것들과 달리 새로운 방법론을 제시한다. intra-class feature variation distillation (IFVD)인데 intra-class feature variation을 teacher 모델에서 student 모델로 전이하는 방법이다. Main Contribution Semantic Segmentation 분야에서 Intra-class Feature Variation Distillation 이라는 새로운 KD 방법론을 제시 Semantic Segmentation 분야에서 현존하는 KD 방법론 중 가장 뛰어난 성능을 보임 Method 이 방법은 각각의 class마다 feature center를 연산한 뒤 각각의 픽셀에 대한 feature와 이것과 일치하는 class-wise feature center와의 유사도를 연산한다. 아래 figure

2022년 6월 2일
·
0개의 댓글
·

[간단정리]Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation(IJCAI 2021)

Paper: https://www.ijcai.org/proceedings/2021/0362.pdf 대규모 teacher model의 지식/정보를 가벼운 student model에 전이시키는 Knowledge distillation(KD) 방법이 효율적인 아키텍처 구성을 위해 널리 쓰이고 있다. 이를 위해 teacher model과 student model의 (softened) probability distribution 사이에 KL-발산을 이용해 차이를 줄이는 방향으로 규제를 주곤 한다. 근데, 실제로 이 softness의 정도($\tau$)에 대한 연구는 별로 수행되지 않고 있다. 저자들은 이에 집중해 이론적으로 $\tau$가 0으로 갈 때는

2022년 5월 10일
·
0개의 댓글
·

Knowledge Distillation

Prologue 모델이 발전할수록 모델이 요구하는 메모리와 용량이 커진다. 그래서 클라우드 혹은 서버에 모델을 실어서 서비스하기도 한다. 실시간으로 응답해야 하거나 개인정보처럼 민감한 정보를 처리하는 경우라면 반드시 온디바이스에서 처리해야 한다. What did the authors try to accomplish? 문제는 온디바이스의 메모리와 용량은 서버가 가진 것만큼 크지 않다. 이 문제를 해결하는 간단한 방법으로 작은 모델을 만들면 응답시간을 줄일 수 있지만 성능은 포기해야한다. 이 연구는 Model Compression에서 큰 ensemble 모델이 학습한 정보를 단일 모델로 옮길 수 있다고 밝힌 점을 다시 정리했다. What were the key elements of the approach? Teacher student paradigm 혼자 학

2022년 4월 18일
·
0개의 댓글
·
post-thumbnail

Paper Review : Structured Knowledge Distillation for Semantic Segmentation

이 논문은 semantic segmentation 분야에 있어서 지식증류 기법(Knowledge Distillation)을 이용하였다. Main Contribution Knowledge Distillation을 Semantic Segmentation 분야에 이용하였다. GAN 구조를 이용하였다. Distillation Framework Knowledge Distillation 이 논문에서 제시하고 있는 Knowledge Distillation은 총 3가지 loss를 이용한다. Pixel-wise distillation, Pair-wise distillation, Holistic dilstillation 이 3가지 loss를 이용해 지식 증류를 진행한다. Pair-wis

2022년 3월 25일
·
0개의 댓글
·
post-thumbnail

Improving BERT Fine-Tuning via Self Ensemble and Self-Distillation[., 2020]

오늘 소개드릴 논문은 다음과 같습니다. Improving BERT Fine-Tuning via Self Ensemble and Self-Distillation https://arxiv.org/abs/2002.10345 Summary 기존 연구에 따르면 BERT계열의 pre-trained language model을 가지고 fine-tuning하는 것은 NLP분야에서 효과적인 방법으로 알려져 있고, 이 방법은 여러 downstream task에 대해 좋은 성능을 보였음이 증명되어져 왔습니다. Fine-tuning의 예시는 다음과 같습니다. Model structure를 변경 Pre-train task에 대해 re-design External data 활용 <span style="background-color: ligh

2022년 3월 12일
·
0개의 댓글
·
post-thumbnail

Dataset Distillation 번역

Abstract Model Distillation은 복잡한 모델의 지식을 간단한 모델에게 증류하는 것이 목적이다. 이 논문에서는 모델을 고정하고 큰 dataset에서 작은 dataset으로 지식을 증류하는 dataset distillation 방법을 제안한다. 이 논문의 핵심 아이디어는 적은 수의 데이터 포인트를 합성하는 것인데, 이 데이터 포인트는 정확한 데이터 분포로부터 가져올 필요는 없지만, 원본 데이터에 대해서 학습된 모델과 근사한 형태로 학습 알고리즘에 훈련 데이터로 제공되어야 한다. 예를 들어, 우리는 60,000개의 MNIST 훈련 이미지를 10개의 합성 이미지로 증류하여 소수의 경사 하강 단계를 거쳐 원본과 비슷한 성능을 달성하였다. 우리는 다양한 초기값들과 다른 objective로의 학습에 대해서 우리의 방법을 평가했다. 여러 데이터셋에 대해서 실험해 본 결과는 우리의 접근법이 다른 방법들에 비해 장점을 가지는 것을 보여준다. 1. Introd

2022년 2월 17일
·
0개의 댓글
·
post-thumbnail

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[.,2017]

Summary 본 연구에서는 기존에 알려져 있는 Temporal ensembling 방법에서 한 단계 나아가 Mean teacher방법을 제안합니다. Mean teacher는 model의 weight를 평균 내는 방법인데, 적은 수의 label만 가지고 이전 방법에 비해 좋은 성능을 보였습니다. SVHN에 대하여 약 250개의 label만 가지고 4.35%의 error rate를 보였습니다. 또한 Mean teacher와 Residual Network(Resnet)과 결합하였을 때, 좋은 성능을 보였다고 합니다. (CIFAR-10 with 4000 labels : 6.28%) Related work neural network를 regularization하기 위해 여러 노이즈 방법들이 제안되었습니다. Semi-supervised-learning에서도 노이즈 방법들을 적용하게 되는데 이를 Consistency training이라고 합니다. <span style='

2021년 12월 29일
·
0개의 댓글
·
post-thumbnail

Distilling the Knowledge in a Neural Network[.,2015]

Model compression방법으로 knowledge distillation를 설명하도록 하겠습니다. Knowledge distillation은 teacher network와 student network의 ensemble을 기반으로 한 방법이라 설명할 수 있습니다. 여기서 knowledge distillation이란 teacher network(capacity가 큰 모델)를 학습한 이후, 이 모델로부터 student network(teacher network보다 capacity가 작은 모델)에게 knowledge를 transfer함을 의미합니다. <img src='https://images.velog.io/images/tjdcjffff/post/52781b

2021년 12월 29일
·
0개의 댓글
·