c# - 使用 Javascript 或 Web 表单的 Web 爬网站点-6ren

gpt4 book

didi

c# - 使用 Javascript 或 Web 表单的 Web 爬网站点

转载作者：可可西里更新时间：2023-11-01 13:46:06

28

4

gpt4 key购买

nike

我有一个网络爬虫应用程序。它成功地抓取了最常见和最简单的网站。现在我遇到了一些类型的网站，其中 HTML 文档是通过 FORMS 或 javascripts 动态生成的。我相信它们可以被抓取，但我只是不知道如何抓取。现在，这些网站不显示实际的 HTML 页面。我的意思是，如果我在 IE 或 firefox 中浏览该页面，HTML 代码与 IE 或 firefox 中的实际内容不匹配。这些站点包含文本框、复选框等...所以我相信它们就是所谓的“Web 表单”。其实我对网络开发不是很熟悉所以如果我错了请纠正我。

我的问题是，有没有人和我现在的情况一样，并且已经成功解决了这些类型的“挑战”？有谁知道关于网络爬行的某本书或文章？那些属于这些高级类型的网站？

谢谢。

最佳答案

这里有两个不同的问题。

表格

根据经验，爬虫不会接触表单。

为特定网站编写一些东西可能是合适的，提交预定(或半随机)数据(特别是在为您自己的网络应用程序编写自动化测试时)，但通用爬虫应该让他们远离它们。

描述如何提交表单数据的规范可在 http://www.w3.org/TR/html4/interact/forms.html#h-17.13 获得。，可能有一个 C# 库可以提供帮助。

JavaScript

JavaScript 是一个相当复杂的野兽。

您可以通过三种常见的方式来处理它:

编写您的抓取工具，使其复制您关注的特定网站的 JS 功能。
自动化网络浏览器
使用像 Rhino 这样的东西与 env.js

关于c# - 使用 Javascript 或 Web 表单的 Web 爬网站点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2544536/

28

4

0

文章推荐： c# - Windows 似乎无法跟踪 .NET 应用程序

文章推荐：带有 SQL 语法的 PHP 简单文本数据库

文章推荐： php - 如何使Visual Studio Development Server与PHP一起使用？

文章推荐： windows - 从临时文件夹运行签名和 RequireAdministrator 可执行文件？

php - 推荐一个 PHP 脚本来创建 XML 站点地图？ (爬/刮方法)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

滴滴打车优惠券

全站热门文章

Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com