Programing/Python

파이썬 크롤링

BroJune 2021. 8. 17. 22:15

import requests
import re

url = 'https://comic.naver.com/webtoon/weekday.nhn'
data = requests.get(url).text
list = re.findall('<div class="col_inner">(.+?)</ul>', data, re.DOTALL)
print(len(list))

for row in list:
days = re.findall('<li>.+?src="(.+?)".+?title="(.+?)".+?</li>', row, re.DOTALL)
for day in days:
src, title = day
content = requests.get(src).content;
title = title.replace("?","")
f = open('./Webtoon/'+title+'.jpg','wb')
f.write(content)
f.close()
print(title,'을 다운 받았습니다.')

print('그림을 저장 하였습니다.')

 

크롤링한 결과물 : 저작권 확인은 필수

- 자료 출처 : 네이버 웹툰 - 

 

 

 

https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D

 

3412 bob

http://www.linuxfocus.org/Korean/July1998/article53.html

 

정규표현식 테스트

https://regexcrossword.com/

.

.+?  ⇒ 원하는 정보를 가져오기 

(.+?) ⇒  (.+?) 가로부분만 가져오기

re.DOTALL ⇒  원하는 정보가 여러줄일때 사용