TF-IDF에 대하여
TF-IDF란 TF-IDF(Term Frequency - Inverse Document Frequency)는 Term의 가중치를 구하는 가장 흔한 알고리즘이다. ( Scoring, 참고: TF-IDF (Wikipedia) ) 검색에 있어 거의 바이블(?)격인 알고리즘이기에, 반드시 알아둬야하는 개념이라 할 수 있다. TFIDF는, 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. 물론 ElasticSearch 5.0.0 GA 버전 이후 기본 scoring알고리즘이 TF-IDF에서 BM25로 변경되었으나, TF-IDF는 반드시 알아둬야할 개념임에는 분명하다. 그리고 "Term"이라는 것은 조각, 토큰과 유사한 의미로..
Devolopment/알고리즘 관련
2020. 3. 2. 16:34
반응형
최근에 달린 댓글