linux non-iso extended-ascii,文本编码判断Non-ISO extended-ASCII text, with very long lines, with CRLF line...
如题有些下载的文本的编码格式很奇怪。通过file命令看到:Non-ISO extended-ASCII text, with very long lines, with CRLF line terminators假如作者搞了个奇奇怪怪的编码格式,你都不知道。通过一个脚本来发现它:#!/bin/bashiconv --list | sed 's/\/\/$//' | sort > encodi
如题有些下载的文本的编码格式很奇怪。通过file命令看到:
Non-ISO extended-ASCII text, with very long lines, with CRLF line terminators
假如作者搞了个奇奇怪怪的编码格式,你都不知道。通过一个脚本来发现它:
#!/bin/bash
iconv --list | sed 's/\/\/$//' | sort > encodings.list
for a in `cat encodings.list`; do
printf "$a "
iconv -f $a -t UTF-8 systeminfo.txt > /dev/null 2>&1 \
&& echo "ok: $a" || echo "fail: $a"
done | tee result.txt
查看result。txt,关注GB开头的就可以了:
文本乱码编码处理
iconv -f GB18030 -t UTF-8 systeminfo.txt > 2222.txt
# file 2222.txt
2222.txt: UTF-8 Unicode text, with very long lines, with CRLF line terminators
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)