파이썬 (쥬피터) [2021.04.22] 64

파이썬 12일차 - 머신러닝 개념정리 (텍스트분석-텍스트 전처리,BOW,희소행렬)

텍스트 전처리 정규화 - 문장 토큰화 : ' . '을 기준으로 문장을 나눈다. - 단어 토큰화 : ' ' (띄어쓰기) 기준으로 단어를 나눈다. - n-gram : uni-gram, bi-gram, tri-gram, n이 4 이상일 때는 gram 앞에 그대로 숫자를 붙여서 명명합니다. - Stopwords 제거 : stopwords : 조사, 관사 등 텍스트 분석적으로 큰 의미가 없는 단어들 - Stemming과 Lemmatization ● Stemming(어간 추출) - working -> work ● Lemmatization(표제어 추출) - am, are, is -> be동사 - 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다. - 품사를 활용하면 더 정확한 lemmati..

파이썬 9일차 - 머신러닝 개념정리 (결정트리, 디시젼트리)

from sklearn.tree import DecisionTreeClassifier # 디시젼트리 불러오기 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 학습, 에측 불러오기 # 워닝 무시 import warnings warnings.filterwarnings('ignore') 디시젼트리 그래프비즈로 시각화 from sklearn.tree import export_graphviz # export_graphviz()의 호출 결과로 out_file로 지정된 tree.dot 파일을 생성함. export_graphviz(dt_clf, out_file="tree.dot", class_name..