취미

히요비 (hiyobi.me) 크롤링을 위한 방법

Subi Lee 2021. 11. 14.
반응형

 

 히요비 제작자가 고맙게도 본인이 만든 소스 공개 및 연말까지 사이트를 오픈해 두었다

사실 나는 원어로 된 만화를 보는 것을 선호하기에 한국어 자료를 크게 선호하지는 않지만,

뭔가 수집욕을 느끼게 하는 것에는 관심이 좀 많다

 

내가 한 방법은 다음과 같다

  1. tag및 id저장
  2. 위 정보를 이용하여 이미지 크롤링
  3. 해당 정보 파싱 및 다운로드 하면 끝
  4. 다운로드 중 timeout이 발생할 수 있다. 소위 중간중간 깨진 이미지가 생길 수 있는데, 나는 다 받은 파일들의 사이즈를 체크하고 binary type이 아니면 재-다운로드 시도하는 것으로 이 문제를 해결했다.

 

반응형

댓글