시작하기전에 바로 전 연관규칙분석 (Apriori Algorithm) 을 보지 못했다면, 그리고 Apriori를 잘 모른다면 잠깐이라도 보고 넘어오길 바란다. Apriori와 마찬가지로 수학적으로, 논문처럼 작성된 문서들은 널리고 널렸기에, 좀더 쉽고 간단하게 설명하고자한다. 어디까지나 알고리즘 이해를 중심으로 설명하려하기에, 알려진 논문이나 자료들과는 조금 다를지도 모른다. 애시당초 그런 논문들 처럼 설명할거였으면 그냥 링크나 올리고 말았을 것이다. 소개 FP-Growth는 FP-Tree라는 구조를 이용하여 Apriori를 효과적으로 구현한 것이라 생각한다. 앞서 Apriori의 처리속도 문제를 해결할 수 있게끔, 자료구조를 기똥차게(?) 응용하여 만들어낸 트릭(?)이랄까? FP-Tree의 구조는, T..
Apriori에 대하여 FP-Growth* Algorithm은 먼저, Apriori Algorithm을 이해해야 좋다. 그런 이유로 FP-Growth*를 설명하기 앞서 Apriori부터 설명토록 하겠다. Apriori Algorithm은 연관규칙분석이다. 임의 데이터 집합간 빈번한 발생패턴을 찾는 알고리즘이다. 그러니까, '핸드폰'을 구매한 사람은 '핸드폰 케이스'를 함께 구매할 확률이 높다, 뭐 이런거? 암튼, 수학적인 그리고 이론적인 설명을 주구장창 해 봤자, 짜증(?)만 나고 이해가 안갈 것이기에, 예를들어 되도록 쉽게 설명토록 하겠다. ㅎㅎ (전공자의 경우, 수학적 설명이나 기호가 빠져 이상하게 생각할 수 있을텐데, 비전공자를 위한 간단한 알고리즘 설명이라 생각바람.) 다음과 같은 구매 목록이 있..
TF-IDF란 TF-IDF(Term Frequency - Inverse Document Frequency)는 Term의 가중치를 구하는 가장 흔한 알고리즘이다. ( Scoring, 참고: TF-IDF (Wikipedia) ) 검색에 있어 거의 바이블(?)격인 알고리즘이기에, 반드시 알아둬야하는 개념이라 할 수 있다. TFIDF는, 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. 물론 ElasticSearch 5.0.0 GA 버전 이후 기본 scoring알고리즘이 TF-IDF에서 BM25로 변경되었으나, TF-IDF는 반드시 알아둬야할 개념임에는 분명하다. 그리고 "Term"이라는 것은 조각, 토큰과 유사한 의미로..
출처: http://www.aistudy.co.kr/pattern/definition_lee.htm 패턴인식의 원리 : 서론 패턴 인식의 원리 1권 : 이성환, 홍릉과학출판사, 1994, Page 3~34 1. 패턴 인식의 기본 개념2. 패턴 인식 시스템 설계시의 기본 문제3. 설계 개념과 방법론 (1) 구성원 명부 개념 (2) 공통 특성 개념4. 패턴 인식 시스템의 훈련과 학습5. 패턴 인식 접근방법 및 예제 (1) 통계적 패턴 인식 접근방법 (2) 구문론적 패턴 인식 접근방법 (3) 신경망을 이용한 패턴 인식 접근방법 (4) 세 가지 접근방법의 비교와 장단점 (5) 통계적 패턴 인식과 구문론적 패턴 인식의 결합6. 패턴 인식 시스템 공학을 위한 절차7. 간단한 패턴 인식 모델