gpt4 book ai didi

eclipse - Nutch 无法获取 UTF-8 字符

转载 作者:行者123 更新时间:2023-12-04 19:22:31 27 4
gpt4 key购买 nike

我使用 抓取页面努奇 在索引之前,我将内容保存到 中的单独文件中取号 类,所以我不使用 -readseg 从索引文件中取回它们。但是,“ü”和“ç”等特殊字符保存为“?”。

我做了 Nutch Wiki page 中推荐的一切.编辑了 标签的编码属性为UTF-8,它仍然不起作用。我遇到了一些关于在系统文件中更改语言的建议。我在 工作Ubuntu 11.10 .

最佳答案

我能想到的有3种可能性:

  • Nutch 工作正常,您的代码将内容正确写入文件,但您的环境(终端/编辑器)未在输出控制台上正确显示字符。
  • 您写出内容的代码(由 nutch 抓取)没有处理 UTF-8 编码。
  • Nutch 未正确处理 UTF-8 编码。

  • 我用 Nucth 抓取了包含中文字符的页面,我能够在 readseg 中看到一些乱码。输出(这是使用 nutch 1.0)。后来我安装了一些语言插件并在终端中调整了设置后,我可以看到字符了。所以,我认为#3 不太可能,你必须关注#1 和#2。

    关于eclipse - Nutch 无法获取 UTF-8 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10154532/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com