gpt4 book ai didi

c# - 使用 C# 从 HTML 表格中抓取文本

转载 作者:太空宇宙 更新时间:2023-11-03 22:02:56 24 4
gpt4 key购买 nike

我需要一些建议和可能的代码示例来解析来自网站的 HTML 表格。我正在使用 webclient 类从地址下载 html。然后我需要找到我想要从中获取数据的表。例如,如果表 ID 是 <table id="cia_list" , 我想遍历 <td>标签并只获取其中的文本。解决这个问题的最佳方法是什么?

最佳答案

过去,我将 HTML 转换为 XML,然后使用 XSLT 来解析结果。如果这是您想采用的方法,我建议您查看 SGMLReader ,它将处理转换。

人们通常会尝试使用正则表达式来完成您所说的事情。这是我通常反对的事情。这是一篇有趣的帖子,其中讨论了不这样做的一些原因:

RegEx match open tags except XHTML self-contained tags

关于c# - 使用 C# 从 HTML 表格中抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9503447/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com