: 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것 (서로 다른 문서들의 BoW들을 결합)
ㄴ 서로 다른 문서들 비교 가능
1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법
2. 문서 단어 행렬(Document-Term Matrix)의 한계
ㄴ 각 문서 벡터의 차원은 전체 단어 집합의 크기
ㄴ 방대한 데이터 -> 문서 벡터의 차원이 굉장히 커짐 -> 대부분의 값이 0
문서 간 유사도를 판단할 때 빈도 수를 기반으로 하면 오류가 있을 수 있음 (불용어)
불용어와 중요한 단어에 대해 가중치를 주는 방법 -> TF-IDF