210511_웹 크롤링

* 웹 의 개념을 이해하고 기술 할 수 있다.
* 웹 수집 연동을 구현할 수 있다.

데이터 수집 → 데이터 유형 및 속성 파악 → 데이터변환 → 데이터저장 → 데이터정제 → 분석단계

html이란 ?

Hyper Text Markup Language의 약자이고 여러개의 태그를(tag)연결해서 모아놓은 순서

동적페이지

클라이언트가 입력한 값을 처리해주는 페이지 (게시판, 방명록, 회원가입, 장바구니) asp, aspx, php, jsp등

정적페이지

클라이언트가 입력한 값을 처리할 수 없는 페이지 .html

WAS (Web Application Server) = Tomcat (+java) = jsp/servlet
ex) Test \ a.html
Test \ a.jsp
http://ip:port/Test/a.html
http://ip:port/Test/a.jsp

: 파이썬 코드를 복잡하게 작성하지 않아도 편하게 웹 크롤링을 할 수 있도록 여러가지 함수를 제공하는 모듈

from bs4 import BeautifulSoup

# 'html.parser' : html문서 파싱 후 불러오기

# soup.find_all (class_="name") : class 이름 name에 접근해서 데이터 가져오기

i.get_text( ) : text만 가져오기

# Test04 ( ) 에서 불러온 숫자를 a = [ ] 리스트 객체 저장 후 a 안의 요소를 정렬 및 출력 한다.

import urllib.request

: 웹 상의 url을 파이썬이 인식할 수 있도록 해주는 모듈

# urllib.request.Requst (list_url) : 사람이 알아볼수 있는 url → 파이썬이 알아볼 수 있도록 하는 작업

urllib.request.urlopen(url).read().decode("utf-8") : url 읽어서 리턴

# 웹 url 을 이용해 크롤링 하기

strip = True

※ www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

사이트참고

HYERI_PLACE