데이터셋 정보
약 10만 6천 건의 전처리된 게시물과 게시자의 성격 유형이 포함되어 있습니다. 각 샘플은 500단어로 동일한 크기로 구성되어 있습니다.
Reddit과 PersonalityCafe 포럼의 게시물을 통해 수집하였으며 각 레코드에는 해당 사용자가 작성한 마지막 50개의 게시물이 포함되어 있습니다.
데이터셋 정보
이 데이터셋에는 7800개 이상의 행이 포함되어 있으며, 각 행에는 사용자의 다음과 같은 정보가 있습니다
• Type (해당 사람의 4글자 MBTI 코드/유형)
• 각 항목은 "|||" (파이프 문자 3개)로 구분됩니다.
데이터셋은 TwitterAPI를 통해 얻었습니다. 사용자를 라벨링하기 위해 "나는 ...이다", "내 MBTI는 ..." 및 "나의 성격 유형은 ..."과 같은 검색 구문을 사용했습니다. 그런 다음 모든 성격 유형에 대해 TwitterAPI 쿼리를 통해 데이터를 수집했습니다.
데이터의 품질을 보장하기 위해 200단어 이상을 공유한 사용자만 데이터셋에 포함되었습니다.
Roboflow는 컴퓨터 비전(Computer Vision) 기술을 이용해 다양한 애플리케이션을 만들 수 있도록 지원해주는 서비스, 무료 데이터셋을 제공해준다.
roboflow 의 public 데이터셋을 다운로드 받아 진행할 예정
18년간의 사용자 상호 작용 및 Food.com (이전의 Genius Kitchen)에 대한 23018개의 레시피와 1125284개의 레시피 리뷰로 구성