gpt4 book ai didi

C# 编码 Shift-JIS 与 utf8 html 敏捷包

转载 作者:太空宇宙 更新时间:2023-11-03 21:46:42 28 4
gpt4 key购买 nike

我有一个问题。我的目标是将一些文本从(日语 Shift-JS 编码)html 保存到 utf8 编码的文本文件中。但我真的不知道如何对文本进行编码。HtmlNode 对象是用 Shift-JS 编码的。但在我使用 ToString() 方法后,内容已损坏。到目前为止,我的方法如下所示:

public String getPage(String url)
{
String content = "";

HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

if (anchor != null)
{
content = anchor.InnerHtml.ToString();
}
return content;
}

我试过了

Console.WriteLine(page.Encoding.EncodingName.ToString());

得到:日语 Shift-JIS但是将 html 转换为 String 会产生错误。我认为应该有办法,但由于 html-agility-pack 的文档很少,而且我无法真正通过谷歌找到解决方案,我在这里也得到了一些提示。

最佳答案

好吧,AutoDetectEncoding 并不像您期望的那样工作。从我查看 AgilityPack 的源代码中发现,该属性仅在从磁盘而不是 url 加载本地文件时使用。

所以有三个选项。一种是只设置编码

OverrideEncoding = Encoding.GetEncoding("shift-jis")

如果您知道编码将始终相同,那是最简单的解决方法。

或者您可以在本地下载文件并以与现在相同的方式加载它,但您将传递文件路径而不是 url。

 using (var client=new WebClient())
{
client.DownloadFile(url, "20130519-OYT1T00606.htm");
}
var htmlWeb = new HtmlWeb(){AutoDetectEncoding = true};
var file = new FileInfo("20130519-OYT1T00606.htm");
HtmlDocument page = htmlWeb.Load(file.FullName);

或者您可以像这样从您的内容中检测编码:

byte[] pageBytes;
using (var client = new WebClient())
{
pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
page.Load(ms);
var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
var contentType = new System.Net.Mime.ContentType(metaContentType);
ms.Position = 0;
page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}

最后,如果您正在查询的页面在响应中返回内容类型,您可以查看 here了解如何获取编码。

您的代码当然需要比我的多一些空检查。 ;)

关于C# 编码 Shift-JIS 与 utf8 html 敏捷包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16635986/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com