본문 바로가기
  • 문과생의 백엔드 개발자 성장기
|Project

210517_work shop (1) . PYTHON/웹 크롤링

by 케리's 2021. 5. 18.

 

 

😃 웹 크롤링을 하기 위해 필요한 라이브러리에는 무엇이 있는지 왜 그 라이브러리를 사용해야 하는지 작성 

 

from bs4 import BeautifulSoup 
# HTML 파싱, 파싱할 문서를 BeautifulSoup 클래스의 생성자에넘겨주어 객체 생성
# 파싱이란? 가져온 url의 html 파일을 파이썬에서 원하는 태그만 추출할 수 있게 해줌
import requests
# 문자열 url을 프로토콜(요청)로 변환

 

 

😃 네이버 영화 순위를 크롤링하기 위해 웹페이지에서 필요한 태그와 클래스를 찾는 방법에 대해 작성

 

#  찾고싶은 정보를 우클릭하여 검사
#  태그명: div / 클래스명: "tit3"

 

😃 네이버 영화 순위를 크롤링하기 위한 함수 프로그램을 만들어 보고 결과를 출력

 

# 예시
import requests
from bs4 import BeautifulSoup

def crawl(url):

    data = requests.get(url) #print(data)
    return data.content

def parse(pageString):
    bsObj = BeautifulSoup(pageString, "html.parser")
    
   # /// 코드작성 ///

    url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
    pageString = crawl(url)
    print("조회순으로 보는 영화순위입니다 =>", parse(pageString))

 

👍 나의 코드 작성

import requests
from bs4 import BeautifulSoup

def crawl(url):

    data = requests.get(url) #print(data)
    return data.content

def parse(pageString):
    bsObj = BeautifulSoup(pageString, "html.parser")
    # ////  name 변수 = BeautifulSoup을 파싱해 데이터 긁어오기 /////

    name = bsObj.find_all('div', class_="tit3")
    content = []
    for i in name:
        content.append(i.get_text(" ", strip = True))

    return content #리턴을 꼭 넣고 출력한다.

if __name__ == '__main__':

    url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
    pageString = crawl(url)
    print("조회순으로 보는 영화순위입니다 =>",'\n', parse(pageString))

 

👏출력 결과

 

'|Project' 카테고리의 다른 글

PJT2_DB_cx_Oracle  (0) 2021.08.23
210521_work shop (2-2) . SQL  (0) 2021.05.23
210521_work shop (2-1) . SQL  (0) 2021.05.23
PJT1_Web_Crawling  (0) 2021.05.12

댓글