[프로젝트] 딥러닝 프로젝트 주제 선정

·2023년 7월 12일
0

머신러닝 프로젝트 주제 선정

1. MBTI 예측 + 음악 추천 시스템

  1. 텍스트를 입력 받은 후 사용자의 MBTI 예측하는 모델 개발
  2. MBTI 별 Playlist 추천
  3. 모델 : BERT...

1. 데이터 : MBTI Personality Types 500 Dataset

데이터셋 정보
약 10만 6천 건의 전처리된 게시물과 게시자의 성격 유형이 포함되어 있습니다. 각 샘플은 500단어로 동일한 크기로 구성되어 있습니다.

Reddit과 PersonalityCafe 포럼의 게시물을 통해 수집하였으며 각 레코드에는 해당 사용자가 작성한 마지막 50개의 게시물이 포함되어 있습니다.

2. 데이터 : MBTI Personality Type Twitter Dataset

데이터셋 정보

이 데이터셋에는 7800개 이상의 행이 포함되어 있으며, 각 행에는 사용자의 다음과 같은 정보가 있습니다

• Type (해당 사람의 4글자 MBTI 코드/유형)
• 각 항목은 "|||" (파이프 문자 3개)로 구분됩니다.

데이터셋은 TwitterAPI를 통해 얻었습니다. 사용자를 라벨링하기 위해 "나는 ...이다", "내 MBTI는 ..." 및 "나의 성격 유형은 ..."과 같은 검색 구문을 사용했습니다. 그런 다음 모든 성격 유형에 대해 TwitterAPI 쿼리를 통해 데이터를 수집했습니다.

데이터의 품질을 보장하기 위해 200단어 이상을 공유한 사용자만 데이터셋에 포함되었습니다.

3. Music 데이터

  • 스포티파이 크롤링

2. 레시피 추천 프로젝트

  • 사용자 촬영한 음식사진을 객체 인식을 통해 식재료 라벨링
  • 음식 재료를 통해 레시피 추천
  • 모델
    YOLO -> 식재료 이미지 객체 인식

1. 식재료 라벨링 데이터 : Roboflow

Roboflow는 컴퓨터 비전(Computer Vision) 기술을 이용해 다양한 애플리케이션을 만들 수 있도록 지원해주는 서비스, 무료 데이터셋을 제공해준다.

roboflow 의 public 데이터셋을 다운로드 받아 진행할 예정

2. 레시피 데이터

18년간의 사용자 상호 작용 및 Food.com (이전의 Genius Kitchen)에 대한 23018개의 레시피와 1125284개의 레시피 리뷰로 구성


profile
개발하고싶은사람

0개의 댓글