gpt4 book ai didi

c# - .NET 中的简单屏幕抓取和分析

转载 作者:行者123 更新时间:2023-11-30 21:23:21 25 4
gpt4 key购买 nike

我正在构建一个用于奖品信息的小型专业搜索引擎。该引擎将仅收集每个站点上的特定数据段。我的计划是将该过程分为两个步骤。

  1. 基于 URL 的简单屏幕抓取,该 URL 指向我需要的部分所在的页面。 执行此操作的最简单方法是使用 WebClient 对象并获取完整的 HTML 吗?

  2. 提取并保存 HTML 后,通过一些脚本对其进行分析,并仅提取我需要的分割和值(例如产品的价格值)。我的问题是这个脚本对于我拉取的每个站点来说必须是唯一的,它必须能够处理非常丑陋的 HTML(所以我认为 XSLT 不会做......)并且我需要能够改变它随着目标站点的更新和更改而动态。我最终会获取特定值并将它们写入数据库以使其可搜索

能否就如何以最佳方式构建架构提供一些提示?您会采取与上述不同的做法吗?

最佳答案

好吧,我会按照你描述的方式去做。

1.它要处理多少数据?通过 WebClient/HttpWebRequest 获取完整的 HTML 应该不是问题。

2.我会去 HtmlAgilityPack用于 HTML 解析。它非常宽容,可以处理非常难看的标记。由于 HtmlAgilityPack 支持 XPath,因此很容易为各个站点选择特定的 xpath。

我正在奔波并会尽快扩展这个答案。

关于c# - .NET 中的简单屏幕抓取和分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1815105/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com