2023 데이터야놀자 후기

Oni·2023년 10월 31일
0

교육&강의

목록 보기
2/5

✔ 거대 언어모델을 초보자인 나도 잘 다루어보고 싶어요!

  • 쉬운 앱들은 프롬프트에 의한 수행으로 대체될 것임
  • 프롬프트는 민감하다. 질문 형태, 뉘앙스에 따라 답변이 달라질 수 있다.
  • 개인이 아닌 회사차원에서 기술을 활용하기 위해서는 같은 결과를 만들 수 있는 것이 중요하다.
  • 동일한 결과를 얻기 위해서는 조건에 의한 테스트가 필요하다 (마치 하이퍼 파라미터튜닝같은 접근같다고 생각)

✔ 데이터 유통 플랫폼 구축하기:저장소를 통합하라

  • 저장소 통합의 필요성 배경

✔ 데이터 신뢰성 엔지니어링

  • 데이터 엔지니어링 영역과 통계를 결합하여 시뮬레이션테스트
    일반적인 정합성 검사 방법
  • count(*) 검사
  • pk 및 중요한 정보 컬럼에 min, max, sum, count, group by
  • 리플리케이션이나 백업 db - full join diff
  • datadiff 추천
  • 테스트 조건 상황의 한계 등이 있긴했으나 새로운 관점의 접근이라는 생각이 들었음.
  • 개인적으로는 검증은 확실한 룰베이스기반의 영역이라는 생각을 했는데, 정합성이 깨지는 기점이 예상한 범위 이상으로 발생한다면 고려해볼 수도 있겠다, 재밌는 접근이라는 생각이 들었음.

✔ 모수가 충분히 크면 중심극한정리에 따라서 정규분포라고 해도 되는 거 아니예요?

  • 모수는 모집단의 특성치를 의미
  • 큰 수의 법칙을 만족시키는 충분히 큰 수는 특정할 수 없음
  • 중심 극한 정리는 표본 평균의 분포에 대한 내용 그리고 n은 표본의 크기임(반복횟수를 의미하는 것이 아님)

✔ 레이크하우스:LLMOps를 위한 거대한 데이터 연못 만들기

  • 데이터의 형태(정형/비정형)에 따른 ETL,ELT방식의 특징 및 장단점
  • 가공단계별로 db(테이블)을 남겨두어야 하는 이유
    - 중간단계에서 이슈 발생시 원인추적에 용이하기 때문

✔ RPA를 통한 디지털 업무 전환이야기

  • power automate desktop 을 활용해 간단하게 rpa 구현

✔ 혼란한 세상에서 만든 나만의 성장 방정식

  • 따로 포스팅

✔ 뭐? 모델링을 안해도 된다구?:Data-centric AI

데이터 신뢰성 (?) 관련 tip 부분
정형데이터는 데이터를 까봐야 함.
비정형데이터의 경우 훨씬 많은 정성(?)이 필요함. 중복제거, 오탈자 수정, 비속어 및 혐오발언 처리 등등

profile
데이터 분석/엔지니어링/ML에 관한 기록

0개의 댓글