gpt4 book ai didi

c# - C#中的网页爬取

转载 作者:行者123 更新时间:2023-11-30 14:41:08 24 4
gpt4 key购买 nike

我的任务是抓取/解析和索引许多图书馆网页上的可用书籍。我通常使用 HTML Agility Pack 和 C# 来解析网站内容。其中之一如下:

http://bibliotek.kristianstad.se/pls/bookit/pkg_www_misc.print_index?in_language_id=en_GB

如果您搜索 *(所有书籍),它将返回许多书籍列表,每页 10 本书分页。

我发现在这个网站上失败的典型网络爬虫。我还尝试编写自己的爬虫,它会遍历页面上的所有链接并生成 post/get 变量以动态生成结果。我也无法做到这一点,主要是因为我收到一些 404 错误(尽管我确定生成的链接是正确的)。

本站依赖javascript生成内容,采用GET和POST变量提交的混合模式。

最佳答案

我要冒险了,但尝试使用 Fiddler 观察 JavaScript GET 和 POST 然后您可以根据这些请求进行抓取。 Fiddler 有 FiddlerCore ,您可以将其放入您自己的 C# 项目中。使用它,您可以监视在 WebBrowser 控件中发出的请求,然后保存它们以供以后进行抓取或其他操作。

沿着 C# JavaScript 解释器路线走下去听起来像是“更正确”的做法,但我敢打赌除非你有最简单的情况,否则它会更难并且充满错误和错误。

祝你好运。

关于c# - C#中的网页爬取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4504943/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com