텐서는 크게 네 가지 방법을 통해 초기화할 수 있다.이 경우, 데이터의 타입을 자동으로 유추해서 실행한다.torch.ones_like(input)는 input과 동일한 크기를 가지면서 각각의 원소가 1인 텐서를 만들어 반환한다. 이는, torch.ones(input.s
서론 로지스틱 회귀는 이산적인 종속 변수 한 개만 있는 경우 많이 사용하는 회귀 기법이다. 로지스틱 회귀의 비용 함수는 이산적인 종속 변수 한 개만 있는 딥러닝 모델에서 사용하는 비용 함수와 동일하기에 로지스틱 회귀의 비용 함수를 잘 이해하는 건 중요하다. 이번 글에
TLDR; 긴 기억을 필요로 하는 의사결정에 사용되는 모델로 트랜스포머 대신 긴 context length를 가져도 빠르게 동작하는 모델을 사용하는 것이 필요하다고 생각하지 않는다. 높은 차원의 관측치(이미지 등)에서 일반적으로 트랜스포머가 사용하는 토큰(512 또는
minGPT 사용Input은 관측 값과 행동의 수열. 이 때, action이 optimal할 필요는 없음. \- 관측과 행동 각각 동일한 차원의 벡터 공간에 임베딩 함.이미지 임베딩은 3 개의 층을 갖는 CNN으로 학습함.행동 임베딩 네트워크의 구조는 나와있지 않음.
로봇으로 다양한 작업을 수행하는 데 적합한 표현을 이미지로부터 얻는 문제모델이 새롭지는 않음이름: VC-1MAE ViT임높은 비율의 이미지 패치를 가린 뒤 전체 이미지를 재구성하는 것이 목표인코더와 디코더로 구성. 인코더와 디코더 모두 vision transformer
사전지식 텐서 브로드캐스팅 Convolutional Neural Network 트랜스포머 EfficientNet 표기 텐서 차원 표기 순서는 $Channel * Height * Width$ 풀어내는 문제 충분한 표현력을 갖는 모델(충분히 큰 모델)을 다양하고
모델 아키텍처 원래의 트랜스포머와 크게 다르지 않음 차이 Pre-normalization: 안정적인 학습을 위해, 계층 출력을 normalize하지 않고 입력을 normalize함. 빠른 속도를 위해, RMSnorm 사용. RMSnorm: Scale and
아키텍처 LLama1과 거의 동일함 차이 Multi Head Attention(MHA) 대신 Grouped Query Attention(GQA) 사용 이유: 학습과 추론 비용을 낮추기 위해 MHA Query Key 그리고 Value 텐서가
필요한 배경 지식 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 구조 트랜스포머 모델의 MLP를 sparse Mixture of Experts(MoE)로 바꿈 사용
기존 sparse MoE의 문제 Load Imbalance 과사용되는 전문가가 없도록 토큰을 균등하게 분배하는 것이 중요하다. 하지만 균등하게 분배되지 않는 경우가 종종 발생함 일부 전문가에 많은 토큰이 할당돼서, 20-40% 정도의 토큰이 드
전이 학습은 크게 두 가지로 나뉜다features based transfer learning사전 학습된 네트워크에서 헤드를 제거한 뒤 백본을 고정시킨다. 그 뒤 새로운 작업에 적합한 헤드를 부착하여 학습downstream 작업을 위한 데이터 세트가 작을 때 효과적미세
프롬프팅을 통해 LLM이 언어 모델의 출력을 잘 평가하도록 만드는 문제작업에 대한 설명ex) "You will be given one summary written for a news article. Your task is to rate the summary on one
어댑터의 단점추론 때 사전 학습된 모델보다 더 많은 계층을 가짐어댑터 계층의 계산이 완료돼야 다음 계층의 계산을 할 수 있기에 병렬화하기 어렵다는 단점이 있음위의 단점을 극복하기 위해, 사전 학습된 모델과 동일한 구조와 파라미터 수를 가질 방법이 필요함.사전 학습된 모
LLM을 미세 조정할 때 메모리를 많이 사용하기에, GPU 클러스터 없이 단일 GPU로 LLM을 미세 조정하기 어려움이유 1: 파라미터 수가 많고 파라미터를 표현하는 자료형이 큼이유 2: backpropagation 때 계산량을 줄이기 위해, activation을 저장
배경 지식 Knowledge Distillation 선생 모델의 중간 계층의 feature 혹은 출력을, 학생 모델 학습 때 사용하는 방법 일반적으로 선생 모델이 학생 모델 크기보다 더 큼 일반적으로 아래의 손실 함수를 최소화한다 $loss =
풀어내는 문제 자기 지도학습으로 vision backbone을 만드는 문제 용어 curated 데이터 세트 일반적인 컴퓨터 비전 데이터 세트를 concat하여 구성한 데이터 세트 어떤 데이터 세트를 사용했는지는, 이 정리에서 생략함. uncurated 데이
발생한 쌍학습 데이터 세트에 존재하는 (이미지, 설명문) 쌍.약한 지도 학습(weakly supervised learning)으로 vision backbone을 학습하는 문제(이미지, 설명문) 쌍을 사용하여 vision backbone을 학습할 때, 일반적으로 MS-C
용어 의미 정보(semantic information) point cloud로 표현한 거리 공간은 공간의 기하를 담는 것이지, 해당 공간의 '의미'를 담지 않는다. 해당 공간의 의미 혹은 의미 정보는 물체의 종류, 경계, 로봇이 해당 공간에서 혹은 해당 물체로 수
VAE가 무엇인가? Variational Auto Encoder의 약자로, amortized variational inference를 사용하는 오토 인코더다. 인코더는 $q\phi(z|x)$를 출력으로 갖고 디코더는 $p\theta(x|z)$를 출력으로 갖는다.
이 논문을 선택한 이유 물체의 종류와 상태 그리고 물체 간의 관계를 파악하고 기억할 수 있는 지각 모듈을 개발하고 싶기 때문. 이러한 지각 모듈이 있다면, 오랜 기간동안 수행해야 하는 작업에 대한 계획을 수립할 때 유용할 것. 이 모듈은, 일차적으로 현재 이미
이 논문을 선택한 이유 로봇의 디퓨젼 정책을 이해하기 위해 디퓨젼 모델에 대해 공부할 필요성을 느낌. 높은 인용 수를 갖는 디퓨젼 논문임. 학습 때의 디퓨젼 모델 이미지에 가우시안 노이즈를 계속해서 더하는 과정(forward process)을 거쳐서 노이즈가 존재하는