반응형
텍스트 파일에서 UTF-8이 아닌 문자를 제거하는 방법
utf-8로 인코딩 된 아랍어, 영어, 러시아어 파일이 많이 있습니다. Perl 스크립트를 사용하여 이러한 파일을 처리하려고하면 다음 오류가 발생합니다.
Malformed UTF-8 character (fatal)
이 파일의 내용을 수동으로 확인한 결과 이상한 문자가 발견되었습니다. 이제 파일에서 이러한 문자를 자동으로 제거하는 방법을 찾고 있습니다.
어쨌든 그것을 할 수 있습니까?
이 명령 :
iconv -f utf-8 -t utf-8 -c file.txt
유효하지 않은 모든 문자를 건너 뛰고 UTF-8 파일을 정리합니다.
-f is the source format
-t the target format
-c skips any invalid sequence
메소드는 바이트 단위로 읽고 바이트 단위 문자 구조를 완전히 이해하고 이해해야합니다. 가장 간단한 방법은 UTF-8 문자 만 출력하는 편집기를 사용하는 것입니다. Textpad는 하나의 선택입니다.
cat foo.txt | strings -n 8 > bar.txt
일을 할 것입니다.
참고 URL : https://stackoverflow.com/questions/12999651/how-to-remove-non-utf-8-characters-from-text-file
반응형
'program story' 카테고리의 다른 글
| Amazon S3 권한 문제-모든 파일에 대한 권한을 한 번에 설정하는 방법은 무엇입니까? (0) | 2020.10.19 |
|---|---|
| com.sun : tools : jar 아티팩트 누락 (0) | 2020.10.19 |
| runtime.Gosched는 정확히 무엇을합니까? (0) | 2020.10.19 |
| PHP에서 try… catch 블록을 효율적으로 사용하는 방법 (0) | 2020.10.19 |
| Neo4J는 ID로 노드 가져 오기 (0) | 2020.10.19 |