sitelink1 | https://blog.naver.com/dlwjddk1010/222968808344 |
---|---|
sitelink2 | https://jsoup.org/ |
sitelink3 | |
extra_vars4 | |
extra_vars5 | |
extra_vars6 |
※ 웹 크롤링 정의
- 웹의 정보를 자동으로 수집하는 것
- HTML 페이지를 가져와서 HTML/CSS등을 파싱하고 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출하는 기법
※ jsoup 기능
- URL, 파일, 문자열을 소스로 하여 HTML을 파싱할 수 있습니다.
- DOM 구조를 추적하거나 익숙한 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있습니다.
- 문서내의 HTML 요소, 속성, 텍스트를 조작할 수 있습니다.
- 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 나머지는 제거할 수 있습니다.
- 깔끔한 형태의 html 을 출력할 수 있습니다.
※ jsoup 사용방법 (출처 : sitelink1)
댓글 0
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
» |
Jsoup 을 이용하여 웹 크롤링(Web Crawling)
![]() | 황제낙엽 | 2023.08.09 | 79 |