sitelink1 | |
---|---|
sitelink2 | |
sitelink3 | |
sitelink4 | |
sitelink5 | |
sitelink6 |
http://unicode.org/unicode/faq/utf_bom.htmlhttp://kin.naver.com/detail/detail.php?d1id=1&dir_id=10106&eid=NMKCLkuyB8Z47FHKs2nFBDuTwIThFIDa&qb=amF2YSB1dGYgYm9t&pid=faULRdoQsD4ssv1S3Ywsss--095327&sid=SFW2IEqfVUgAAA-P4fI
유니코드 파일에는 파일 첫부분에 몇바이트가 특정 값으로 설정됩니다.
아스키 파일은 그런 규칙이 정해진 게 없구요.
그 정해진 바이트 값을 BOM(Byte Order Mark)라고 합니다.
파일을 Binary 리더로 읽으셔서 첫 몇바이트를 우선 읽은 다음에,
유니코드 파일인지 확인하고 유니코드냐 아스키냐를 선택하시면 될 것 같네요.
바이트값 정해진 것은 http://unicode.org/unicode/faq/utf_bom.html 문서에 나옵니다.
(BOM 검색하시면 다른 자료들도 있을 듯...)
아스키 파일은 정해진 규칙이 없습니다.
유니코드 파일이 아니다- 라고 결정되면 아스키로 보시면 무방할 겁니다.
아스키 파일은 그런 규칙이 정해진 게 없구요.
그 정해진 바이트 값을 BOM(Byte Order Mark)라고 합니다.
파일을 Binary 리더로 읽으셔서 첫 몇바이트를 우선 읽은 다음에,
유니코드 파일인지 확인하고 유니코드냐 아스키냐를 선택하시면 될 것 같네요.
바이트값 정해진 것은 http://unicode.org/unicode/faq/utf_bom.html 문서에 나옵니다.
(BOM 검색하시면 다른 자료들도 있을 듯...)
Bytes | Encoding Form |
---|---|
00 00 FE FF | UTF-32, big-endian |
FF FE 00 00 | UTF-32, little-endian |
FE FF | UTF-16, big-endian |
FF FE | UTF-16, little-endian |
EF BB BF | UTF-8 |
아스키 파일은 정해진 규칙이 없습니다.
유니코드 파일이 아니다- 라고 결정되면 아스키로 보시면 무방할 겁니다.