Apriori에 대하여 FP-Growth* Algorithm은 먼저, Apriori Algorithm을 이해해야 좋다. 그런 이유로 FP-Growth*를 설명하기 앞서 Apriori부터 설명토록 하겠다. Apriori Algorithm은 연관규칙분석이다. 임의 데이터 집합간 빈번한 발생패턴을 찾는 알고리즘이다. 그러니까, '핸드폰'을 구매한 사람은 '핸드폰 케이스'를 함께 구매할 확률이 높다, 뭐 이런거? 암튼, 수학적인 그리고 이론적인 설명을 주구장창 해 봤자, 짜증(?)만 나고 이해가 안갈 것이기에, 예를들어 되도록 쉽게 설명토록 하겠다. ㅎㅎ (전공자의 경우, 수학적 설명이나 기호가 빠져 이상하게 생각할 수 있을텐데, 비전공자를 위한 간단한 알고리즘 설명이라 생각바람.) 다음과 같은 구매 목록이 있..
TF-IDF란 TF-IDF(Term Frequency - Inverse Document Frequency)는 Term의 가중치를 구하는 가장 흔한 알고리즘이다. ( Scoring, 참고: TF-IDF (Wikipedia) ) 검색에 있어 거의 바이블(?)격인 알고리즘이기에, 반드시 알아둬야하는 개념이라 할 수 있다. TFIDF는, 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. 물론 ElasticSearch 5.0.0 GA 버전 이후 기본 scoring알고리즘이 TF-IDF에서 BM25로 변경되었으나, TF-IDF는 반드시 알아둬야할 개념임에는 분명하다. 그리고 "Term"이라는 것은 조각, 토큰과 유사한 의미로..
#!/bin/sh ######################################################### # "DaemonManager.sh" ######################################################### if [ -f ~/.bashrc ]; then . ~/.bashrc PATH=$PATH:$HOME/.local/bin:$HOME/bin export PATH export PATH=/usr/local/anaconda3-4.1.0/bin:/usr/local/lib/:$PATH fi WORKDIR=~/TEST/BaseUpdateDaemon DAEMON=daemon.py LOG=~/TEST/log/daemon.log function do_start() ..
mecab-ko-dic 사전관리 Mecab-ko-dic 사전은 아주 간편한 몇가지 규칙으로 관리된다. 비전문가라 하여도 다른 형태소분석기에 비해, 간단하게 배우고 관리할 수 있다는 장점이 있다. (사전 설치/추가 방법은 여기 참고) 레코드 구조 단어, left-ID, right-ID, Weight, 품사, 의미분류, 종성유무, 읽기, 타입, 첫번째품사, 마지막품사, 표현, 색인표현 진한 청색글자 부분이 핵심, 나머지는 mecab-ko 사전 엔진이 일아서 처리해주는 부분이거나 작성치 않아도 문제가 되지 않는부분. Excel형식을 예로들어 설명하도록 하겠다. (어이쿠; 엄청 쪼마나네; '클릭확대로 볼것') 단어 새로이 추가될 단어를 써넣는 부분. Left & Right ID 사용자 사전 관리시 ID는 빈칸으..
대분류 세종 품사 태그 mecab-ko-dic 품사 태그 태그 설명 태그 설명 체언 NNG 일반 명사 NNG 일반 명사 NNP 고유 명사 NNP 고유 명사 NNB 의존 명사 NNB 의존 명사 NNBC 단위를 나타내는 명사 NR 수사 NR 수사 NP 대명사 NP 대명사 용언 VV 동사 VV 동사 VA 형용사 VA 형용사 VX 보조 용언 VX 보조 용언 VCP 긍정 지정사 VCP 긍정 지정사 VCN 부정 지정사 VCN 부정 지정사 관형사 MM 관형사 MM 관형사 부사 MAG 일반 부사 MAG 일반 부사 MAJ 접속 부사 MAJ 접속 부사 감탄사 IC 감탄사 IC 감탄사 조사 JKS 주격 조사 JKS 주격 조사 JKC 보격 조사 JKC 보격 조사 JKG 관형격 조사 JKG 관형격 조사 JKO 목적격 조사 JK..