gpt4 book ai didi

java - Java文本输出中的UTF-8编码问题

转载 作者:行者123 更新时间:2023-11-30 09:50:57 25 4
gpt4 key购买 nike

我一直在为高棉语 Unicode 分词器测试各种解决方案(高棉语在单词之间没有空格,这使得拼写检查和语法检查变得困难,以及从旧高棉语转换为高棉语 Unicode)。

我得到了一些现在在线的源代码 ( http://www.whitemagicsoftware.com/software/java/wordsplit/ ),看起来很有前途。作者好心给了出处,但是他正忙着写书,无暇排查。

我正在以非常小的规模测试代码,但我在输出方面遇到了问题。

这里是输入:

ជាដែលនឹងបានមាន

这是结果输出:

ជារ���លនឹងបានមាន,ជា រ���ល នឹង បាន មាន

其实分词是对的,就是有一个词乱了。输出应如下所示:

ជាដែលនឹងបានមាន, ជា ដែល នឹង បាន មាន

有人知道为什么输出是乱码吗?

这是带有非常小的高棉语词典和要拆分的单词的代码:http://www.sbbic.org/khmerwordsplit.zip

下面是如何运行它:

java -jar wordsplit.jar khmerlexicon.csv khmercolumns.txt >> results.txt

我非常感谢 stackoverflow 社区迄今为止为这个项目提供的所有帮助 - 我希望很快就能找到解决方案!

最佳答案

我注意到当系统编码配置为 UTF-8 时它可以正常工作:

java -Dfile.encoding=UTF-8 -jar wordsplit.jar khmerlexicon.csv khmercolumns.txt >> results.txt

也许输入文件被假定为系统编码。阅读BalusC's post mentioned in the comments查看如何独立于系统编码执行输入/输出。

关于java - Java文本输出中的UTF-8编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4885114/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com