| sitelink1 | https://blog.naver.com/dlwjddk1010/222968808344 |
|---|---|
| sitelink2 | https://jsoup.org/ |
| sitelink3 | |
| extra_vars4 | |
| extra_vars5 | |
| extra_vars6 |
※ 웹 크롤링 정의
- 웹의 정보를 자동으로 수집하는 것
- HTML 페이지를 가져와서 HTML/CSS등을 파싱하고 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출하는 기법
※ jsoup 기능
- URL, 파일, 문자열을 소스로 하여 HTML을 파싱할 수 있습니다.
- DOM 구조를 추적하거나 익숙한 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있습니다.
- 문서내의 HTML 요소, 속성, 텍스트를 조작할 수 있습니다.
- 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 나머지는 제거할 수 있습니다.
- 깔끔한 형태의 html 을 출력할 수 있습니다.
※ jsoup 사용방법 (출처 : sitelink1)

댓글 0
| 번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
|---|---|---|---|---|
| 58 | 톰캣에서 로그 파일 저장시 ansi 로 저장되는 현상 | 황제낙엽 | 2024.10.21 | 103 |
| » |
Jsoup 을 이용하여 웹 크롤링(Web Crawling)
| 황제낙엽 | 2023.08.09 | 105 |
| 56 | Apache Log4j™ 2 사용하기 | 황제낙엽 | 2023.04.28 | 100 |
| 55 | Migrating from Log4j 1.x to 2.x | 황제낙엽 | 2023.04.28 | 101 |
| 54 |
SLF4J 를 사용해야 하는 이유
| 황제낙엽 | 2022.09.17 | 87 |
| 53 | Apache Log4j 2 Configuration 파일 설정 | 황제낙엽 | 2020.04.01 | 318 |
| 52 |
이클립스에서 JUnit 사용하기
| 황제낙엽 | 2019.04.02 | 198 |
| 51 | 각 레벨별 출력파일 설정 예제 | 황제낙엽 | 2018.09.18 | 241 |
| 50 |
log4j-1.2.15.jar 와 log4j.properties 예제
| 황제낙엽 | 2017.08.04 | 298 |
| 49 |
POI HSSF, XSSF, SXSSF 성능 분석
| 황제낙엽 | 2013.11.05 | 1687 |
| 48 | POI-HSSF and POI-XSSF - Java API To Access Microsoft Excel Format Files | 황제낙엽 | 2013.11.05 | 1199 |
| 47 | Commons Logging과 Log4J | 황제낙엽 | 2013.03.07 | 201 |
| 46 |
Library & Properties 파일
| 황제낙엽 | 2011.12.23 | 517 |
| 45 |
Cell 의 wrap 설정 (텍스트 개행)
| 황제낙엽 | 2011.05.09 | 3155 |
| 44 |
XSSF Examples
| 황제낙엽 | 2011.05.04 | 362 |
| 43 | 병합된 셀의 스타일( border) 설정하기 | 황제낙엽 | 2011.05.03 | 1786 |
| 42 | 셀 크기 조정 (자동 크기 조정) | 황제낙엽 | 2011.05.03 | 7839 |
| 41 | 셀 병합 | 황제낙엽 | 2011.05.03 | 255 |
| 40 | WebSphere 에서 Log4j 사용하기 | 황제낙엽 | 2011.04.15 | 149 |
| 39 |
Map 사용 예제
| 황제낙엽 | 2010.10.17 | 126 |
