D038

less than 1 minute read

TF-IDF

TF-IDF 빈도를 기반으로 문서에서 단어(아이템) 의 중요도를 파악하는 방식입니다.

특정 문서에서 단어는 TF-IDF 점수를 갖습니다.

$w_{ij} = TF{ij}\times IDF_i$

여기서 TF는

$TF_{ij} = \frac{f_{ij}}{max_k f_{kj}}$ 입니다.

$f_{ij}$ 는 문서 j 에서 나타난 단어 i 의 빈도입니다.
TF 는 해당 단어의 빈도를 문서 중 가장 높은 단어의 빈도 나눈 값입니다.
직관적으로, 해당 문서에서 그 단어가 어떤 비율을 갖고 있는지 나타냅니다.

IDF는

$IDF_i = \log \frac{N}{n_i}$ 입니다.

$n_i$ 는 i 단어가 나온 문서의 수이고
$N$ 은 전체 문서의 수 입니다.
n_i 가 높아질 수록, IDF 는 낮아집니다.
예를 들어 stop word 인 the , a 같은 경우는 전체 문서에서 많이 발생하지만 중요한 정보는 아닙니다.
이러한 특성을 반영하기 위해서 IDF 를 사용합니다.

이렇게 얻은 TF-IDF 의 점수가 높을수록
해당 단어의 중요도가 높다고 간주할 수 있습니다.

문서 - 단어 로 표현하여 설명하였지만,
item - feature 로 확장시켜서 추천시스템에서도 사용됩니다.

Updated:

Comments