gpt4 book ai didi

c# - 使用 Javascript 或 Web 表单的 Web 爬网站点

转载 作者:可可西里 更新时间:2023-11-01 13:46:06 28 4
gpt4 key购买 nike

我有一个网络爬虫应用程序。它成功地抓取了最常见和最简单的网站。现在我遇到了一些类型的网站,其中 HTML 文档是通过 FORMS 或 javascripts 动态生成的。我相信它们可以被抓取,但我只是不知道如何抓取。现在,这些网站不显示实际的 HTML 页面。我的意思是,如果我在 IE 或 firefox 中浏览该页面,HTML 代码与 IE 或 firefox 中的实际内容不匹配。这些站点包含文本框、复选框等...所以我相信它们就是所谓的“Web 表单”。其实我对网络开发不是很熟悉所以如果我错了请纠正我。

我的问题是,有没有人和我现在的情况一样,并且已经成功解决了这些类型的“挑战”?有谁知道关于网络爬行的某本书或文章?那些属于这些高级类型的网站?

谢谢。

最佳答案

这里有两个不同的问题。

表格

根据经验,爬虫不会接触表单。

为特定网站编写一些东西可能是合适的,提交预定(或半随机)数据(特别是在为您自己的网络应用程序编写自动化测试时),但通用爬虫应该让他们远离它们。

描述如何提交表单数据的规范可在 http://www.w3.org/TR/html4/interact/forms.html#h-17.13 获得。 ,可能有一个 C# 库可以提供帮助。

JavaScript

JavaScript 是一个相当复杂的野兽。

您可以通过三种常见的方式来处理它:

  1. 编写您的抓取工具,使其复制您关注的特定网站的 JS 功能。
  2. 自动化网络浏览器
  3. 使用像 Rhino 这样的东西与 env.js

关于c# - 使用 Javascript 或 Web 表单的 Web 爬网站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2544536/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com