[부스트캠프 AI-Tech] 13주차 Day 1
✏️학습 정리
1. 데이터 제작의 A to Z
- 데이터 제작의 중요성

-
데이터 구축 과정
- 원시 데이터 선정 및 확보
- 구축 및 가공 프로세스 확립
- 구축 및 가공 지침 작성
- 데이터 구축 및 가공
- 데이터 검수
-
데이터 설계
- 데이터의 유형
- 데이터의 In / Out 형식
- 데이터별 규모와 구분(split) 방식
- 데이터의 주석(annotation) 유형
-
데이터 수집-가공 설계
- 원시 데이터 선정
- 작업자 선정
- 구축 및 검수 방법 설계
- 가이드라인 작성
-
자연어처리 데이터

2. 자연어처리 데이터 기초
-
인공지능 모델 개발을 위한 데이터
- 데이터 종류
- 인공지능 기술의 발전
- 규칙 기반 → 통계 기반 → 기계 학습 기반 (Task와 데이터는 그대로!)
- 종합적 벤치마크 등장
- GLUE → super GLUE → KILT → GEM
-
데이터 관련 용어
- 텍스트 (text)
- 말뭉치 (corpus)
- 데이터 (data)
- 주석 (tag, label, annotation)
- 타입 (type), 토큰 (token)
- N-gram (연속된 N개의 단위)
- 표상 (representation)
-
자연어처리 데이터 형식
- HTML
- XML
- JSON, JSONL
- CSV, TSV
-
공개 데이터
3. 자연어처리 데이터 소개 1
- 국내 언어 데이터 구축 프로젝트
- 국가 주도
- 세종 계획(국립국어원) → 엑소브레인(ETRI) → 모두의 말뭉치(국립국어원)
- 민간 주도
- KorQuAD(LG CNS)
- KLUE(Upstage)
- KorNLU(kakaobrain)
🗣️피어세션
- git KLUE repository README 수정