210517_work shop (1) . PYTHON/웹 크롤링

😃 웹 크롤링을 하기 위해 필요한 라이브러리에는 무엇이 있는지 왜 그 라이브러리를 사용해야 하는지 작성

from bs4 import BeautifulSoup 
# HTML 파싱, 파싱할 문서를 BeautifulSoup 클래스의 생성자에넘겨주어 객체 생성
# 파싱이란? 가져온 url의 html 파일을 파이썬에서 원하는 태그만 추출할 수 있게 해줌
import requests
# 문자열 url을 프로토콜(요청)로 변환

😃 네이버 영화 순위를 크롤링하기 위해 웹페이지에서 필요한 태그와 클래스를 찾는 방법에 대해 작성

#  찾고싶은 정보를 우클릭하여 검사
#  태그명: div / 클래스명: "tit3"

😃 네이버 영화 순위를 크롤링하기 위한 함수 프로그램을 만들어 보고 결과를 출력

# 예시
import requests
from bs4 import BeautifulSoup

def crawl(url):

    data = requests.get(url) #print(data)
    return data.content

def parse(pageString):
    bsObj = BeautifulSoup(pageString, "html.parser")
    
   # /// 코드작성 ///

    url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
    pageString = crawl(url)
    print("조회순으로 보는 영화순위입니다 =>", parse(pageString))

👍 나의 코드 작성

import requests
from bs4 import BeautifulSoup

def crawl(url):

    data = requests.get(url) #print(data)
    return data.content

def parse(pageString):
    bsObj = BeautifulSoup(pageString, "html.parser")
    # ////  name 변수 = BeautifulSoup을 파싱해 데이터 긁어오기 /////

    name = bsObj.find_all('div', class_="tit3")
    content = []
    for i in name:
        content.append(i.get_text(" ", strip = True))

    return content #리턴을 꼭 넣고 출력한다.

if __name__ == '__main__':

    url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
    pageString = crawl(url)
    print("조회순으로 보는 영화순위입니다 =>",'\n', parse(pageString))

👏출력 결과

'｜Project' 카테고리의 다른 글

PJT2_DB_cx_Oracle (0)	2021.08.23
210521_work shop (2-2) . SQL (0)	2021.05.23
210521_work shop (2-1) . SQL (0)	2021.05.23
PJT1_Web_Crawling (0)	2021.05.12

HYERI_PLACE

210517_work shop (1) . PYTHON/웹 크롤링

'｜Project' 카테고리의 다른 글

댓글

티스토리툴바

210517_work shop (1) . PYTHON/웹 크롤링

'｜Project' 카테고리의 다른 글

관련글

댓글

티스토리툴바