TF-IDF에 대해서 알아보기
TF-IDF TF(단어 빈도수, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지 나타내는 값 DF(Document Frequency)는 특정 단어가 나타난 문서의 수를 말하며, 이 값의 역수를 IDF(inverse document frequence)라고 한다. TF-IDF = TF*IDF = TF*log((N – n)/n) N : 전체 문서의 수 n : 단어가 포함된 문서의 수 IDF = log((N – n)/n) 예를 들어서 전체 문서가 100,000,000 존재한다. gift 라는 단어가 DOC1에 2번, DOC2에 1번 그리고 존재하는 문서는 300,000 card 라는 단어가 DOC1에 3번, DOC2에 6번 그리고 존재하는 문서는 400,000 gift card 라..