gpt4 book ai didi

html - 使用 C# 清理 HTML

转载 作者:行者123 更新时间:2023-11-28 04:43:13 25 4
gpt4 key购买 nike

如何使用 C# 修复格式错误的 HTML?一个很好的答案是 HTML Agility Pack 示例!


我正在抓取网站(用于合法用途)。该站点的 HTML 没问题,但存在一些烦人的问题。

我可以采用的一种方法是通过正则表达式。我使用 Expression Web 来分析问题和纠正问题所需的正则表达式。因此,一种方法是使用诸如 RegexBuddy 之类的工具。为这些正则表达式生成 C# 代码。

但是,在 C# 中处理格式错误的 HTML 的推荐工具是 HTML Agility Pack (哈普)。而且,我只分析了一小部分页面,我担心以后的页面会有我还没有解决的模式,我不愿意进入“在接下来的几页中找到错误并更正它们”的维护商业。所以,如果 HAP 已经有了可靠的、始终有效的解决方案,那就太好了。问题是,除了 SO 此处的一些提及之外,除了逐对象 API 帮助文件外,我找不到任何有关此工具的使用方法文档。

所以 - 在我花钱学习 RegexBuddy(没有免费评估版)之前,或者在 HAP 的 API 文档上咬牙切齿之前 - 有没有一种简单的方法可以做到这一点? HAP 示例会有所帮助...:-)

最佳答案

你能告诉我你遇到了什么样的恼人问题吗?
但是您不需要使用正则表达式来清理 html,HAP 将允许您使用 Xpath 查询访问格式错误的 html 的元素。
基本上你需要学习 Xpath 才能知道如何获得你想要的 html 元素。
这实际上取决于您使用 HAP 解析的 html 类型。
但是有几种方法可以获取元素。
例如通过 id 或 class,甚至您可以获得跟在另一个包含给定文本(例如“name:”)的元素之后的元素。
你可以去W3 schools Xpath Tutorial一个不错的 xpath 教程

关于html - 使用 C# 清理 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1754258/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com