sitelink1 | https://blog.naver.com/dlwjddk1010/222968808344 |
---|---|
sitelink2 | https://jsoup.org/ |
sitelink3 | |
extra_vars4 | |
extra_vars5 | |
extra_vars6 |
※ 웹 크롤링 정의
- 웹의 정보를 자동으로 수집하는 것
- HTML 페이지를 가져와서 HTML/CSS등을 파싱하고 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출하는 기법
※ jsoup 기능
- URL, 파일, 문자열을 소스로 하여 HTML을 파싱할 수 있습니다.
- DOM 구조를 추적하거나 익숙한 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있습니다.
- 문서내의 HTML 요소, 속성, 텍스트를 조작할 수 있습니다.
- 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 나머지는 제거할 수 있습니다.
- 깔끔한 형태의 html 을 출력할 수 있습니다.
※ jsoup 사용방법 (출처 : sitelink1)
댓글 0
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
58 | 톰캣에서 로그 파일 저장시 ansi 로 저장되는 현상 | 황제낙엽 | 2024.10.21 | 68 |
» |
Jsoup 을 이용하여 웹 크롤링(Web Crawling)
![]() | 황제낙엽 | 2023.08.09 | 79 |
56 | Apache Log4j™ 2 사용하기 | 황제낙엽 | 2023.04.28 | 75 |
55 | Migrating from Log4j 1.x to 2.x | 황제낙엽 | 2023.04.28 | 78 |
54 |
SLF4J 를 사용해야 하는 이유
![]() | 황제낙엽 | 2022.09.17 | 64 |
53 | Apache Log4j 2 Configuration 파일 설정 | 황제낙엽 | 2020.04.01 | 261 |
52 |
이클립스에서 JUnit 사용하기
![]() | 황제낙엽 | 2019.04.02 | 172 |
51 | 각 레벨별 출력파일 설정 예제 | 황제낙엽 | 2018.09.18 | 213 |
50 |
log4j-1.2.15.jar 와 log4j.properties 예제
![]() | 황제낙엽 | 2017.08.04 | 278 |
49 |
POI HSSF, XSSF, SXSSF 성능 분석
![]() | 황제낙엽 | 2013.11.05 | 1660 |
48 | POI-HSSF and POI-XSSF - Java API To Access Microsoft Excel Format Files | 황제낙엽 | 2013.11.05 | 1120 |
47 | Commons Logging과 Log4J | 황제낙엽 | 2013.03.07 | 177 |
46 |
Library & Properties 파일
![]() | 황제낙엽 | 2011.12.23 | 487 |
45 |
Cell 의 wrap 설정 (텍스트 개행)
![]() | 황제낙엽 | 2011.05.09 | 3114 |
44 |
XSSF Examples
![]() | 황제낙엽 | 2011.05.04 | 335 |
43 | 병합된 셀의 스타일( border) 설정하기 | 황제낙엽 | 2011.05.03 | 1755 |
42 | 셀 크기 조정 (자동 크기 조정) | 황제낙엽 | 2011.05.03 | 7813 |
41 | 셀 병합 | 황제낙엽 | 2011.05.03 | 215 |
40 | WebSphere 에서 Log4j 사용하기 | 황제낙엽 | 2011.04.15 | 122 |
39 |
Map 사용 예제
![]() | 황제낙엽 | 2010.10.17 | 104 |