본문 바로가기
  • 문과생의 백엔드 개발자 성장기
|Playdata_study/Python

210511_웹 크롤링

by 케리's 2021. 5. 11.

* 웹 의 개념을 이해하고 기술 할 수 있다.
* 웹 수집 연동을 구현할 수 있다.

 

데이터 분석순서

데이터 수집 → 데이터 유형 및 속성 파악  데이터변환  데이터저장  데이터정제  분석단계

 

데이터 수집 기술 (웹 스크롤링 기술)

html이란 ?

Hyper Text Markup Language의 약자이고 여러개의 태그를(tag)연결해서 모아놓은 순서

 

html api : http://www.w3.org/

연습용사이트http://www.w3schools.com/

 

웹페이지

 

동적페이지 

 

클라이언트가 입력한 값을 처리해주는 페이지 (게시판, 방명록, 회원가입, 장바구니) asp, aspx, php, jsp등


정적페이지 

 

클라이언트가 입력한 값을 처리할 수 없는 페이지 .html


WAS (Web Application Server) = Tomcat (+java) = jsp/servlet
  ex) Test \ a.html
       Test \ a.jsp
       http://ip:port/Test/a.html
       http://ip:port/Test/a.jsp

 

 

BeautifulSoup 모듈

: 파이썬 코드를 복잡하게 작성하지 않아도 편하게 웹 크롤링을 할 수 있도록 여러가지 함수를 제공하는 모듈

  from bs4 import BeautifulSoup

 

 

# 'html.parser' : html문서 파싱 후 불러오기 

 

 

# soup.find_all (class_="name") : class 이름 name에 접근해서 데이터 가져오기

   i.get_text( ) : text만 가져오기 

 

 

# Test04 ( ) 에서 불러온 숫자를 a = [ ] 리스트 객체 저장 후 a 안의 요소를 정렬 및 출력 한다.  

 

 

 

import urllib.request

: 웹 상의 url을 파이썬이 인식할 수 있도록 해주는 모듈 

 

# urllib.request.Requst (list_url) : 사람이 알아볼수 있는 url → 파이썬이 알아볼 수 있도록 하는 작업

   urllib.request.urlopen(url).read().decode("utf-8") : url 읽어서 리턴

 

 

 

# 웹 url 을 이용해 크롤링 하기

  strip = True

 

 

www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all  

  사이트참고 

'|Playdata_study > Python' 카테고리의 다른 글

210720_Numpy (array, random, 인덱싱, 슬라이싱)  (0) 2021.07.20
210512_웹 크롤링2  (0) 2021.05.12
210510_Json 구현 및 웹 서비스  (0) 2021.05.10
210507_모듈 활용 및 csv  (0) 2021.05.07
210506_예외처리  (0) 2021.05.06

댓글