gpt4 book ai didi

java - HTMLCLEANER 处理西类牙字符

转载 作者:搜寻专家 更新时间:2023-11-01 03:27:18 28 4
gpt4 key购买 nike

我正在使用 HtmlCleaner 库以在 java 中解析/转换 HTML 文件。

似乎无法处理像“ÁáÉéÍíÚúÜü”这样的西类牙字符

我可以在 HtmlCleaner 中设置任何属性来处理这个或任何其他解决方案吗?这是我用来调用它的代码:

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

最佳答案

HtmlCleaner 除非指定,否则使用从 JVM 读取的默认字符集。在 Windows 上,这将是 Cp1512 而不是 UTF-8,这可能是它出错的地方。

你可以

  • 在您的 JVM 起始行指定 -Dfile.encoding=UTF-8
  • 使用接受字符集的 HtmlCleaner.clean() 重载

    TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8");

    (如果项目中有 Google Guava,则可以使用 Charsets.UTF_8 作为常量)

  • 使用 HtmlCleaner.clean() 重载来接受您已经使用正确字符集构建的 InputStreamReader。

关于java - HTMLCLEANER 处理西类牙字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10299651/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com