취미
히요비 (hiyobi.me) 크롤링을 위한 방법
반응형
히요비 제작자가 고맙게도 본인이 만든 소스 공개 및 연말까지 사이트를 오픈해 두었다
사실 나는 원어로 된 만화를 보는 것을 선호하기에 한국어 자료를 크게 선호하지는 않지만,
뭔가 수집욕을 느끼게 하는 것에는 관심이 좀 많다
내가 한 방법은 다음과 같다
- tag및 id저장
- 현재 4408까지 페이지가 있다
- 해당 정보는 hiyobi에서 https://api.hiyobi.me/list/nnnn 형태로 제공하고 있다.
- 위 정보를 이용하여 이미지 크롤링
- 해당 정보는 hiyobi에서
https://cdn.hiyobi.me/json/nnnn_list.json- https://api.hiyobi.me/gallery/nnnn 및
- https://cdn.hiyobi.me/data/nnnn/filename 형태로 제공하고 있다.
- 해당 정보는 hiyobi에서
- 해당 정보 파싱 및 다운로드 하면 끝
- 다운로드 중 timeout이 발생할 수 있다. 소위 중간중간 깨진 이미지가 생길 수 있는데, 나는 다 받은 파일들의 사이즈를 체크하고 binary type이 아니면 재-다운로드 시도하는 것으로 이 문제를 해결했다.
반응형
댓글