DBPIE 주요 기능
합법적이고 유연한 데이터 수집을 위한 강력한 기능들
robots.txt 준수 설정 (ON/OFF)
DBPIE는 웹사이트의 robots.txt 규칙을 준수하는 것을 기본 원칙으로 합니다.
준수 모드 (권장)
- 웹사이트의 robots.txt 파일을 자동으로 확인
- Disallow 규칙이 적용된 페이지는 자동 제외
- Crawl-delay 설정을 존중하여 적절한 간격 유지
- 법적 리스크 최소화 및 윤리적 크롤링
비준수 모드 (고급 사용자용)
- robots.txt 규칙을 무시하고 데이터 수집
- 제한된 페이지에도 접근 시도
- 사용자 책임 하에 운영
설정 방법
크롤링 작업 생성 시 robots.txt 준수 여부를 선택할 수 있습니다:
작업 설정 > 고급 옵션 > robots.txt 준수: [ON] / [OFF]
브라우저 엔진 선택
다양한 브라우저 엔진을 선택하여 웹사이트 호환성과 개인정보 수집 방식을 제어할 수 있습니다.
Chrome/Chromium
가장 널리 사용되는 브라우저 엔진으로 대부분의 웹사이트와 높은 호환성을 제공합니다.
- JavaScript 렌더링 지원
- 최신 웹 표준 완벽 지원
- 확장 프로그램 활용 가능
Firefox
개인정보 보호에 강점을 가진 브라우저로, 추적 방지 기능이 강화되어 있습니다.
- 강력한 개인정보 보호
- 쿠키 및 추적 차단
- 메모리 효율적
Edge
Microsoft의 최신 브라우저로, Windows 환경에 최적화되어 있습니다.
- Windows 통합 최적화
- 빠른 성능
- 기업 환경 지원
설정 방법
크롤링 작업 생성 시 사용할 브라우저를 선택할 수 있습니다:
작업 설정 > Bot 설정 > 브라우저 엔진: [Chrome] / [Firefox] / [Edge]
기타 강력한 기능들
요청 간격 조절
서버 부하를 고려하여 요청 간격을 세밀하게 조정할 수 있습니다. 1초부터 60초까지 자유롭게 설정 가능합니다.
User-Agent 커스터마이징
다양한 디바이스와 브라우저로 위장하여 웹사이트의 반응형 콘텐츠를 수집할 수 있습니다.
로그인 세션 관리
로그인이 필요한 웹사이트의 데이터도 안전하게 수집할 수 있습니다. 세션 쿠키 자동 관리 기능을 제공합니다.
프록시 서버 지원
IP 차단을 우회하고 지역 제한 콘텐츠에 접근할 수 있도록 프록시 서버 설정을 지원합니다.