파이썬(Python) 스포츠 동아 최신 뉴스 기사 파싱하기
파이썬 크롤링(Python Crawling)2018. 12. 8. 22:45
728x90
반응형
소스코드는 다음과 같습니다.
import urllib.request
from bs4 import BeautifulSoup
def main():
for i in range(0, 10):
url = "http://sports.donga.com/Enter?p=" + str((i * 20) + 1) + "&c=02"
soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")
spans = soup.find_all("span", class_="tit")
for j in range(0, 20):
print((i * 20) + j + 1, "번째 글:", spans[j + 3].get_text())
if __name__ == "__main__":
main()
또한 혹은 특정한 뉴스 기사 목록 페이지에서, 각 뉴스 기사 상세 페이지의 링크를 얻고 싶다면 다음과 같이 할 수 있습니다.
import urllib.request
from bs4 import BeautifulSoup
def main():
url = "http://sports.donga.com/Enter?p=1&c=02"
soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")
spans = soup.find_all("span", class_="tit")
for i in range(0, 20):
print(spans[i + 3].find("a")["href"])
if __name__ == "__main__":
main()
728x90
반응형
'파이썬 크롤링(Python Crawling)' 카테고리의 다른 글
파이썬(Python) 네이트 판 최신 뉴스 기사 파싱하기 (0) | 2018.12.08 |
---|---|
파이썬(Python) SBS 최신 뉴스 파싱하기 (0) | 2018.12.08 |
파이썬(Python) 네이트 판 댓글 파싱하기 (0) | 2018.12.08 |
파이썬(Python) 네이버 영화 리뷰 파싱하기 (0) | 2018.12.08 |
파이썬(Python) 클리앙 게시판 파싱하기 (1) | 2018.12.08 |