- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个网络爬虫应用程序。它成功地抓取了最常见和最简单的网站。现在我遇到了一些类型的网站,其中 HTML 文档是通过 FORMS 或 javascripts 动态生成的。我相信它们可以被抓取,但我只是不知道如何抓取。现在,这些网站不显示实际的 HTML 页面。我的意思是,如果我在 IE 或 firefox 中浏览该页面,HTML 代码与 IE 或 firefox 中的实际内容不匹配。这些站点包含文本框、复选框等...所以我相信它们就是所谓的“Web 表单”。其实我对网络开发不是很熟悉所以如果我错了请纠正我。
我的问题是,有没有人和我现在的情况一样,并且已经成功解决了这些类型的“挑战”?有谁知道关于网络爬行的某本书或文章?那些属于这些高级类型的网站?
谢谢。
最佳答案
这里有两个不同的问题。
根据经验,爬虫不会接触表单。
为特定网站编写一些东西可能是合适的,提交预定(或半随机)数据(特别是在为您自己的网络应用程序编写自动化测试时),但通用爬虫应该让他们远离它们。
描述如何提交表单数据的规范可在 http://www.w3.org/TR/html4/interact/forms.html#h-17.13 获得。 ,可能有一个 C# 库可以提供帮助。
JavaScript 是一个相当复杂的野兽。
您可以通过三种常见的方式来处理它:
关于c# - 使用 Javascript 或 Web 表单的 Web 爬网站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2544536/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
我是一名优秀的程序员,十分优秀!