gpt4 book ai didi

java - JSoup 字符编码问题 #2

转载 作者:行者123 更新时间:2023-12-04 05:41:03 27 4
gpt4 key购买 nike

我正在构建这样的 JSoup 文档:

String user_agent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/A.B     (KHTML, like Gecko) Chrome/X.Y.Z.W Safari/A.B.";
String url = "http://www.ncbi.nlm.nih.gov/pmc/articles/PMC24391/?tool=pubmed";
Document doc = return Jsoup.connect(url).userAgent(user_agent).get();

然后,我使用 doc.toString() 保存到文件在保存的文件中,我看到字符被替换为 ? .例如 5 μm会变成 5 ?m .

如果我更改输出设置以使用 ISO-8859-1 字符集,似乎没问题。

谁能解释这是为什么?据我了解,原来的 html 页面是 UTF-8,这是默认的 Jsoup 编码..

最佳答案

对我来说很好用。你的问题是在别处引起的。

最可能的原因是您没有使用 UTF-8 保存文件。您应该使用 OutputStreamWriter 将指定字符编码的字符写入文件。

writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");

此外,您需要确保文件查看器或您在保存文件后使用的任何进程也在整个管道中使用 UTF-8。另见 Unicode - How to get the characters right?

关于java - JSoup 字符编码问题 #2,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11243896/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com