파이썬 크롤링
import requests
import re
url = 'https://comic.naver.com/webtoon/weekday.nhn'
data = requests.get(url).text
list = re.findall('<div class="col_inner">(.+?)</ul>', data, re.DOTALL)
print(len(list))
for row in list:
days = re.findall('<li>.+?src="(.+?)".+?title="(.+?)".+?</li>', row, re.DOTALL)
for day in days:
src, title = day
content = requests.get(src).content;
title = title.replace("?","")
f = open('./Webtoon/'+title+'.jpg','wb')
f.write(content)
f.close()
print(title,'을 다운 받았습니다.')
print('그림을 저장 하였습니다.')
크롤링한 결과물 : 저작권 확인은 필수
https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D
3412 bob
http://www.linuxfocus.org/Korean/July1998/article53.html
정규표현식 테스트
.
.+? ⇒ 원하는 정보를 가져오기
(.+?) ⇒ (.+?) 가로부분만 가져오기
re.DOTALL ⇒ 원하는 정보가 여러줄일때 사용