gpt4 book ai didi

linux - 从 Linux 终端运行 PERL 脚本时保留重音字母

转载 作者:太空宇宙 更新时间:2023-11-04 05:02:47 24 4
gpt4 key购买 nike

我想从法语维基百科转储 XML 文件中获取纯文本文件。为此,我应用了 Perl 脚本

如果需要,我可以提供完整的文件,我只添加了这一行

tr/a-zàâééèëêîôûùç-/ /cs;

到这里的脚本:http://mattmahoney.net/dc/textdata.html

但是,当我在 Linux 终端上运行时:

perl filterwikifr.pl frwiki.xml > frwikiplaintext.txt  

输出文本文件无法正确打印重音字母。例如,我得到的是categorie而不是categorie...

我也尝试过:

perl -CS filterwikifr.pl frwiki.xml > frwikiplaintext.txt

没有取得更好的成功(以及其他变体而不是-CS...)

最佳答案

问题出在文本编辑器 gedit 上。

如果我不直接打开文件,而是打开 gedit,然后转到“打开”并向下,在“字符编码”中选择 UTF-8 而不是“自动检测”,则重音符号将正确打印。

关于linux - 从 Linux 终端运行 PERL 脚本时保留重音字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27438690/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com