CURL 웹 크롤링 데이터 수집 - 수집설정화면
설정화면이 매우 버라이어틱 합니다.
위에서부터 내려오겠습니다.
자동 프록시 프로그램
특정 사이트는 특정국적의 IP가 막혀 있습니다. 그럴경우 프록시 기능을 자체 내장한 "닷지크롬"을 사용하도록 링크를 걸어두었습니다.
JSOUP 파싱 메뉴얼
수집 프로그램 방식은 크게 2가지 입니다.
1. PHP 의 cURL 사용
2. JAVA의 HttpRequest 사용
그냥 1번을 사용하면 되는데, 왜 굳이 2번까지 도입했냐구요?
1번으로 안되는게 있더라구요 ㅡㅜ;
그 원인은 아직도 파악하지 못했습니다.
1번으로 아무리 해도 안되길래, 의지의 한국인 정신력으로 마지막으로 JAVA로 긁어 보았습니다.
이게 한방에 되는겁니다!
그래서 카페24 JSP 호스팅을 바로 결제하고, JAVA 로 수집하는 2번 방법을 추가하게 되었습니다.
JSOUP 은 수지보딘 html 엘레멘터를 쉽게 파싱하게 도와주는 java 라이브러리 입니다.
그 다음부터는 수집 사이트 설정입니다.
3단계 depth 로 등록을 합니다.
1depth - 사이트 이름
2depth - 페이지그룹(사진, 일반...)
3depth - 수집페이지 URL
그 다음으로는 이제 위에서 설명한 php를 사용하여 수집하느냐, java를 사용하여 수집하느냐의 선택입니다.
그 다음으로 이제 데이터 파싱을 위한 본격적인 설정에 들어갑니다.
1. 페이지 구분값
- 보통 페이징방식은 get 방식으로 이루어집니다. 그 get 파라메터의 페이지 카운트의 파라메터값입니다.
2. 작성자 아이디
- 긁어온 게시글의 작성자를 누구로 할 것인지 정합니다.
3. 로그인 아이디 / 로그인 패스워드
- 긁어오려는 사이트가 로그인을 하지 않으면 접근하지 못하는 페이지인 경우, 해당 사이트의 아이디, 비밀번호를 입력합니다.
4. 로그인 URL
- 긁어오려는 사이트가 로그인을 하지 않으면 접근하지 못하는 페이지인 경우, 해당 사이트의 로그인 action url 값을 입력합니다.
5. 프록시 설정
- ip 가 막힌경우, 우회할 프록시 IP를 입력합니다.
--------------------- 리스트
6. 리스트(row)
- 게시글 리스트의 row 시작과 끝의 태그를 각각 입력합니다.
7. 제목
- 리스트 row의 제목태그의 시작과 끝을 입력합니다.
8. 상세페이지 링크
- 리스트 row의 상세페이지 링크 시작과 끝을 입력합니다.(웬만하면 <a href=, >로 고정임)
--------------------- 상세
9. 제목
- 상세페이지 제목태그의 시작과 끝을 입력합니다.
10. 본문내용
- 상세페이지 본문내용태그의 시작과 끝을 입력합니다.
11. 이미지
- 상세페이지 본문내용의 이미지 태그가 있을경우, 이미지 태그의 시작과 끝을 입력합니다.(거의 <img, >로 고정)
12. 동영상
- 상세페이지 본문내용의 동영상 태그가 있을경우, 동영상 태그의 시작과 끝을 입력합니다.
13. 파일(시드)
- 상세페이지에 토렌트 시드 태그가 있을경우, 시드 태그의 시작과 끝을 입력합니다.
14. 마그넷
- 상세페이지에 토렌트 마그넷 태그가 있을경우, 마그넷 태그의 시작과 끝을 입력합니다.