* 웹 의 개념을 이해하고 기술 할 수 있다.
* 웹 수집 연동을 구현할 수 있다.
데이터 분석순서
데이터 수집 → 데이터 유형 및 속성 파악 → 데이터변환 → 데이터저장 → 데이터정제 → 분석단계
데이터 수집 기술 (웹 스크롤링 기술)
html이란 ?
Hyper Text Markup Language의 약자이고 여러개의 태그를(tag)연결해서 모아놓은 순서
html api : http://www.w3.org/
연습용사이트 : http://www.w3schools.com/
웹페이지
동적페이지
클라이언트가 입력한 값을 처리해주는 페이지 (게시판, 방명록, 회원가입, 장바구니) asp, aspx, php, jsp등
정적페이지
클라이언트가 입력한 값을 처리할 수 없는 페이지 .html
WAS (Web Application Server) = Tomcat (+java) = jsp/servlet
ex) Test \ a.html
Test \ a.jsp
http://ip:port/Test/a.html
http://ip:port/Test/a.jsp
BeautifulSoup 모듈
: 파이썬 코드를 복잡하게 작성하지 않아도 편하게 웹 크롤링을 할 수 있도록 여러가지 함수를 제공하는 모듈
from bs4 import BeautifulSoup
# 'html.parser' : html문서 파싱 후 불러오기
# soup.find_all (class_="name") : class 이름 name에 접근해서 데이터 가져오기
i.get_text( ) : text만 가져오기
# Test04 ( ) 에서 불러온 숫자를 a = [ ] 리스트 객체 저장 후 a 안의 요소를 정렬 및 출력 한다.
import urllib.request
: 웹 상의 url을 파이썬이 인식할 수 있도록 해주는 모듈
# urllib.request.Requst (list_url) : 사람이 알아볼수 있는 url → 파이썬이 알아볼 수 있도록 하는 작업
urllib.request.urlopen(url).read().decode("utf-8") : url 읽어서 리턴
# 웹 url 을 이용해 크롤링 하기
strip = True
※ www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all
사이트참고
'|Playdata_study > Python' 카테고리의 다른 글
210720_Numpy (array, random, 인덱싱, 슬라이싱) (0) | 2021.07.20 |
---|---|
210512_웹 크롤링2 (0) | 2021.05.12 |
210510_Json 구현 및 웹 서비스 (0) | 2021.05.10 |
210507_모듈 활용 및 csv (0) | 2021.05.07 |
210506_예외처리 (0) | 2021.05.06 |
댓글