분류 전체보기 119

네이버 금융 크롤링 (주식 인기검색종목)

import sys # 시스템 import os # 시스템 import pandas as pd # 판다스 : 데이터분석 라이브러리 import numpy as np # 넘파이 : 숫자, 행렬 데이터 라이브러리 import requests from selenium import webdriver # 웹 브라우저 자동화 import time # 서버와 통신할 때 중간중간 시간 지연. 보통은 1초 #크롬 웹브라우저 실행 driver = webdriver.Chrome("./chromedriver") url = "https://finance.naver.com/sise/lastsearch2.nhn" driver.get(url) time.sleep(2) # url주소에 해당 html소스에 있는 테이블들을 list안에 ..

제작 도전 2021.05.12

네이버 금융 크롤링 (주식 테마별 시세)

import sys # 시스템 import os # 시스템 import pandas as pd # 판다스 : 데이터분석 라이브러리 import numpy as np # 넘파이 : 숫자, 행렬 데이터 라이브러리 import requests from selenium import webdriver # 웹 브라우저 자동화 import time # 서버와 통신할 때 중간중간 시간 지연. 보통은 1초 #크롬 웹브라우저 실행 driver = webdriver.Chrome("./chromedriver") url = "https://finance.naver.com/sise/theme.nhn?&page=1" driver.get(url) time.sleep(2) # 해당 html소스에 있는 테이블들을 list안에 있는 da..

제작 도전 2021.05.12

파이썬 12일차 - 머신러닝 개념정리 (텍스트분석-텍스트 전처리,BOW,희소행렬)

텍스트 전처리 정규화 - 문장 토큰화 : ' . '을 기준으로 문장을 나눈다. - 단어 토큰화 : ' ' (띄어쓰기) 기준으로 단어를 나눈다. - n-gram : uni-gram, bi-gram, tri-gram, n이 4 이상일 때는 gram 앞에 그대로 숫자를 붙여서 명명합니다. - Stopwords 제거 : stopwords : 조사, 관사 등 텍스트 분석적으로 큰 의미가 없는 단어들 - Stemming과 Lemmatization ● Stemming(어간 추출) - working -> work ● Lemmatization(표제어 추출) - am, are, is -> be동사 - 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다. - 품사를 활용하면 더 정확한 lemmati..