😃 웹 크롤링을 하기 위해 필요한 라이브러리에는 무엇이 있는지 왜 그 라이브러리를 사용해야 하는지 작성
from bs4 import BeautifulSoup
# HTML 파싱, 파싱할 문서를 BeautifulSoup 클래스의 생성자에넘겨주어 객체 생성
# 파싱이란? 가져온 url의 html 파일을 파이썬에서 원하는 태그만 추출할 수 있게 해줌
import requests
# 문자열 url을 프로토콜(요청)로 변환
😃 네이버 영화 순위를 크롤링하기 위해 웹페이지에서 필요한 태그와 클래스를 찾는 방법에 대해 작성
# 찾고싶은 정보를 우클릭하여 검사
# 태그명: div / 클래스명: "tit3"
😃 네이버 영화 순위를 크롤링하기 위한 함수 프로그램을 만들어 보고 결과를 출력
# 예시
import requests
from bs4 import BeautifulSoup
def crawl(url):
data = requests.get(url) #print(data)
return data.content
def parse(pageString):
bsObj = BeautifulSoup(pageString, "html.parser")
# /// 코드작성 ///
url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
pageString = crawl(url)
print("조회순으로 보는 영화순위입니다 =>", parse(pageString))
👍 나의 코드 작성
import requests
from bs4 import BeautifulSoup
def crawl(url):
data = requests.get(url) #print(data)
return data.content
def parse(pageString):
bsObj = BeautifulSoup(pageString, "html.parser")
# //// name 변수 = BeautifulSoup을 파싱해 데이터 긁어오기 /////
name = bsObj.find_all('div', class_="tit3")
content = []
for i in name:
content.append(i.get_text(" ", strip = True))
return content #리턴을 꼭 넣고 출력한다.
if __name__ == '__main__':
url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn"
pageString = crawl(url)
print("조회순으로 보는 영화순위입니다 =>",'\n', parse(pageString))
👏출력 결과
'|Project' 카테고리의 다른 글
PJT2_DB_cx_Oracle (0) | 2021.08.23 |
---|---|
210521_work shop (2-2) . SQL (0) | 2021.05.23 |
210521_work shop (2-1) . SQL (0) | 2021.05.23 |
PJT1_Web_Crawling (0) | 2021.05.12 |
댓글