WebApp HTML Paser 의 종류

황제낙엽 2008.06.09 17:33 조회 수 : 1934 추천:162

sitelink1  
sitelink2  
sitelink3  
sitelink4  
sitelink5  
sitelink6  
1. HTMLParser ( http://htmlparser.sourceforge.net ) 내용 보기
HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, it features filters, visitors, custom tags and easy to use JavaBeans. It is a fast, robust and well tested package.
Welcome to the homepage of HTMLParser - a super-fast real-time parser for real-world HTML. What has attracted most developers to HTMLParser has been its simplicity in design, speed and ability to handle streaming real-world html.
2. jericho HTML Parser ( http://jerichohtml.sourceforge.net/doc/index.html ) 내용 보기
Jericho HTML Parser is a simple but powerful java library allowing analysis and manipulation of parts of an HTML document, including some common server-side tags, while reproducing verbatim any unrecognised or invalid HTML. It also provides high-level HTML form manipulation functions.
3. NekoHTML ( http://people.apache.org/~andyc/neko/doc/index.html ) 내용 보기
NekoXNI is a collection of small, useful XML tools written for the Xerces Native Interface (XNI) that is the foundation of the Xerces2 implementation. The NekoXNI tools are written to illustrate the power and flexibility of the XNI framework as well as provide useful tools for XML application developers.
4. JTidy ( http://jtidy.sourceforge.net ) 내용 보기
JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. Like its non-Java cousin, JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM interface to the document that is being processed, which effectively makes you able to use JTidy as a DOM parser for real-world HTML.
5. YGHTML Parser ( http://jakarta.tistory.com/25 ) 내용 보기
주말 이틀 반납해가며, SCRIPT 부분에 대해 Parsing이 되는 HTML Parser를 만들어 보았다.
Version은 0.1 정도로 보면 되겠다. 가장 문법이 변태적인 Naver정도는 정확하게 Parsing을 해냈으나 아직까지 많은 테스트와 수정, 추가가 필요한 상황이다. 연구용 정도로 쓰기는에는 불편함이 없을듯 하며, 아직 DOM Tree를 생성하는 부분의 구현은 안되었다.(시간 부족)
Lexer가 어느정도 안정화 되었으므로 Stack 정도만 적절히 쓴다면 DOM Tree 정도는 쉽게 구현이 가능할 것이다.

번호 제목 글쓴이 날짜 조회 수
» HTML Paser 의 종류 황제낙엽 2008.06.09 1934
126 File 생성시 encoding 지정하기 (Unicode/utf-8 file 읽고 쓰기) 황제낙엽 2008.05.22 1947
125 java String.replaceAll (String regex, String replacement) 쓸떄 조심할 것 황제낙엽 2008.05.22 1764
124 java String.replaceAll 잘쓰기 황제낙엽 2008.05.22 1756
123 간단한 DBConnection 프로그램 (JDBC) file 황제낙엽 2008.05.15 1786
122 상속과 연관(association, composition) 황제낙엽 2008.04.10 1665
121 HttpServletRequest 객체의 함수 모음 file 황제낙엽 2008.01.28 1806
120 ObjectCache클래스 와 Server/Client프로그램 file 황제낙엽 2007.11.07 1708
119 ObjectCache시스템의 구현을 위한 추가 고려사항 황제낙엽 2007.11.04 1671
118 문제 : 간단한 ObjectCache 프로그램을 구현하라 황제낙엽 2007.11.01 1765
117 ObjectCache 클래스를 구현한 예제 소스 파일들 황제낙엽 2007.11.01 1652
116 LinkedHashMap 를 이용한 LRU 캐쉬 구현 황제낙엽 2007.11.03 1912
115 J2SE 5.0 에서의 QUEUE와 DELAYED 프로세싱 황제낙엽 2007.11.02 1736
114 J2EE object-caching frameworks (ObjectCache) 황제낙엽 2007.11.02 3741
113 Object Caching in a Web Portal Application Using JCS (ObjectCache) 황제낙엽 2007.11.02 1865
112 Java Object Cache | Patterns 'N J2EE (ObjectCache) 황제낙엽 2007.11.01 1802
111 Runtime 클래스를 이용한 JVM 메모리 사용량 확인 황제낙엽 2007.11.05 1939
110 자바 애플리케이션에서 동적으로 PDF 파일 생성하기 황제낙엽 2007.10.03 1956
109 싱글사인온(single sign-on)으로 엔터프라이즈 자바 인증을 단순하게! 황제낙엽 2007.10.03 1706
108 [BPP] 게시판 페이징 로직 분석 - M1.3 file 황제낙엽 2007.09.26 1481