python - 在python中使用scrapy执行Javascript提交表单函数-6ren

python - 在python中使用scrapy执行Javascript提交表单函数

转载作者：太空狗更新时间：2023-10-29 22:04:19

25

4

我正在使用 scrapy 框架抓取一个站点，但在单击用于打开另一个页面的 javascript 链接时遇到了问题。

我可以将页面上的代码识别为:

<a class="Page" alt="Click to view job description" title="Click to view job description" href="javascript:sysSubmitForm('frmSR1');">Accountant&nbsp;</a>

谁能建议我如何在 scaroy 中执行该 javascript 并通过它获取另一个页面，我可以从该页面获取数据。

提前致谢

最佳答案

查看下面有关如何将 scrapy 与 selenium 一起使用的片段。抓取速度会变慢，因为您不只是下载 html，而且您将获得对 DOM 的完全访问权限。

注意:我已经复制粘贴了这段代码，因为之前提供的链接不再有效。

# Snippet imported from snippets.scrapy.org (which no longer works)

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request

from selenium import selenium

class SeleniumSpider(CrawlSpider):
    name = "SeleniumSpider"
    start_urls = ["http://www.domain.com"]

    rules = (
        Rule(SgmlLinkExtractor(allow=('\.html', )),
        callback='parse_page',follow=True),
    )

    def __init__(self):
        CrawlSpider.__init__(self)
        self.verificationErrors = []
        self.selenium = selenium("localhost", 4444, "*chrome", "http://www.domain.com")
        self.selenium.start()

    def __del__(self):
        self.selenium.stop()
        print self.verificationErrors
        CrawlSpider.__del__(self)

    def parse_page(self, response):
        item = Item()

        hxs = HtmlXPathSelector(response)
        #Do some XPath selection with Scrapy
        hxs.select('//div').extract()

        sel = self.selenium
        sel.open(response.url)

        #Wait for javscript to load in Selenium
        time.sleep(2.5)

        #Do some crawling of javascript created content with Selenium
        sel.get_text("//div")
        yield item

关于python - 在python中使用scrapy执行Javascript提交表单函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10648644/

25

4

0

文章推荐： python - 通过 Python 子进程模块在 shell 中进行管道传输

文章推荐： c# - 是否可以像在 VB.NET 中一样在 C# 中导入静态类？

文章推荐： Python:按值调用和按对象调用有什么区别？

文章推荐： c# - 条件运算符会感到困惑，但为什么呢？

symfony - 多对多 Ajax 表单(Symfony2 表单)
我在 mongodb 中的玩家和锦标赛之间存在多对多关系。我希望能够一次将许多玩家添加到锦标赛中。如果没有 ajax，这很简单，但我们有一个包含数千名玩家的数据库，因此表单选择变得巨大。我们想为此
java - spring 表单 vs html 表单
这个问题已经有答案了: When should I use html's and when spring's in Spring MVC web app? (3 个回答) 已关闭 6 年前。我正
delphi - 如何将对话框(表单)中的 20 个项目的值传递给调用者(表单)
我正在 C++ Builder XE4 上使用 VCL。我有以下组件。 FormMain 具有 TButton *B_select; FormSelect(或DialogSelect)具有 TCom
delphi - 表单 :Transparent, 表单 :non Transparent? 上的控件
如何在不影响表单控件的情况下更改表单的 alphablend？德尔福XE7 最佳答案此问题的一个解决方案是使用多设备应用程序(如果无法使用VCL)。如果您需要保留透明的TForm，只需更改属性T
php - 动态 JavaScript 表单，无 HTML 表单
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
django 表单 is_valid 总是失败(扩展 django-registration 表单)
我正在尝试扩展 Django 注册以包含我自己的注册表单。原则上这是相当简单的。我只需要编写自己的表单( CustomRegistrationForm )，它是原始表单( RegistrationFo
python - ListView 中的 Django 表单，表单 POST 时出错
我正在尝试为我的网站实现聊天功能。为了做到这一点，我遵循了以下教程:https://channels.readthedocs.io/en/latest/tutorial/ 然后我稍微更改了代码以实现它
python - 一个 html 表单，几个相互关联的 django 表单 - 如何保存？
有一个问题，我需要用一个 html 表单提交两个相互关联的模型表单。我知道如何提交两个单独的表格，但是在相关模型表格的情况下外键让我发疯。问题是，第二个表单应该用外键填充字段到第一个表单的实例。在
javascript - 从 XSD 创建 Web 表单，然后输出 xml 表单
我正在创建一个工具，允许某人输入食谱，然后将其保存为 XML 文件，我已经创建了 XSD，但我想知道如何在我的网页上制作一个表单以允许用户输入他们的食谱并遵守模式。我一直在研究 Ajax 和 Jque
c# - .net win 表单(如 asp.net web 表单)中是否有可用的验证控件？
在 .net win 表单(如 asp.net web 表单)中是否有可用的验证控件？因为很难为我的每个控件设置正确的条件，所以我的表单中也有很多重复的代码。正确的做法是什么？最佳答案看看这个
Javascript 表单
我有一个简短的问题。我正在学习如何使用 javascript 制作注册表，发现此链接非常有用。 http://www.w3resource.com/javascript/form/javascript
JavaScript/表单
我正在开发一个项目，该项目将使用循环将许多表单添加到 mysql 数据库中。在 javascript 部分中，我无法让 var i 在函数 updatesum() 中工作。有人可以帮我吗？我试图避免
Android - 表单
在我的应用程序上有一个包含 2 个字段和一个保存按钮的表单。在我的 onClick 结束时我需要什么来将光标返回到第一个字段。我有这个来清除它们 txtData.setText("
类似于谷歌日历重复选项的javascript插件/表单
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
表单数字字符验证正则
<input type="text" name="textfield" onKeyPress="javascript:alert(event.
基本模板上的 Django 表单
我正在构建的网站有一个登录表单，作为所有其他模板扩展的 base.html 模板的一部分；因此，我需要以某种方式处理每个页面上的登录/注销逻辑。目前每个页面都在单独的 View 中加载，那么实现它的
Django UpdateView 表单
我有一个表单类，看起来像.. #forms.py class ExampleForm(forms.Form): color = forms.CharField(max_length=25)
django 表单 error_class
有没有办法在表单定义中给表单一个特殊的错误渲染函数？在 customizing-the-error-list-format 下的文档中它展示了如何为表单提供特殊的错误呈现函数，但似乎您必须在实例化表单
Redux 表单 - 如何将字段设置为触摸
我正在处理由多个页面组成的表单，我想解决验证问题。当我点击提交按钮时，当前页面上的所有字段都会在下方显示错误消息，但是如果我更改页面，那么我需要再次点击提交，因为这些字段未设置为已触摸。如果我可以
Django 表单 - 附加到类元排除和小部件
是否可以附加到继承表单的 exclude 或 widgets 变量？到目前为止，我有以下设置。 class AddPropertyForm(forms.ModelForm): num_mon

首页

博学

6Ren·AI

商城

python - 在python中使用scrapy执行Javascript提交表单函数