python - 使用嵌套框架和 javascript 进行网页抓取-6ren

python - 使用嵌套框架和 javascript 进行网页抓取

转载作者：行者123 更新时间：2023-12-04 16:20:40

26

4

我想从在线聊天机器人那里得到答案。
http://talkingbox.dyndns.org:49495/braintalk ? ( ? 属于链接)

要发送问题，您只需发送一个简单的请求:

http://talkingbox.dyndns.org:49495/in?id=3B9054BC032E53EF691A9A1803040F1C&msg=[Here the question]

源看起来像这样:

<frameset cols="*,185" frameborder="no" border="0" framespacing="0">
<frameset rows="100,*,82" frameborder="no" border="0" framespacing="0">
    <frame src="http://thebot.de/bt_banner.html" marginwidth="0" name="frtop" scrolling="no" marginheight="0" frameborder="no">
    <frame src="out?id=3B9054BC032E53EF691A9A1803040F1C" name="frout" marginwidth="0" marginheight="0">
    <frameset rows="100%,*" border="0" framespacing="0" frameborder="no">
        <frame src="bt_in?id=3B9054BC032E53EF691A9A1803040F1C" name="frin" scrolling="no" marginwidth="0" marginheight="0" noresize>
        <frame src="" name="frempty" marginwidth="0" marginheight="0" scrolling="auto" frameborder="no" >
    </frameset>
</frameset>
<frameset frameborder="no" border="0" framespacing="0" rows="82,*">
    <frame src="stats?" name="fr1" scrolling="no" marginwidth="0" marginheight="0" frameborder="no">
    <frame src="http://thebot.de/bt_rechts.html" name="fr2" scrolling="auto" marginwidth="0" marginheight="0" frameborder="no" >
</frameset>
</frameset>

我使用“mechanize”和beautifulsoup 进行网页抓取，但我认为mechanize 不支持动态网页。

在这种情况下，我怎样才能得到答案？

我也在寻找一种在 Windows 和 Linux 上运行良好的解决方案。

最佳答案

无论是 BeautifulSoup、mechanize、Requests 还是 Scrapy，加载动态页面都必须由您编写的另一个步骤完成。

例如，使用scrapy这可能看起来像:

class TheBotSpider(BaseSpider):
    name = 'thebot'
    allowed_domains = ['thebot.de', 'talkingbox.dyndns.org']

    def __init__(self, *a, **kw):
        super(TheBotSpider, self).__init__(*a, **kw)
        self.domain = 'http://talkingbox.dyndns.org:49495/'
        self.start_urls = [self.domain + 
                           'in?id=3B9054BC032E53EF691A9A1803040F1C&msg=' + 
                           self.question]

    def parse(self, response):
        sel = Selector(response)
        url = sel.xpath('//frame[@name="frout"]/@src').extract()[0]
        yield Request(url=url, callback=dynamic_page)

    def dynamic_page(self, response):
        .... xpath to scrape answer

以问题为参数运行它:

scrapy crawl thebot -a question=[Here the question]

有关如何使用scrapy 的更多详细信息，请参阅 scrapy tutorial

关于python - 使用嵌套框架和 javascript 进行网页抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21129107/

26

4

0

文章推荐： Python 类型错误

文章推荐： json - KRL:将字符串解析为 JSON

文章推荐： krl - 域的调度 .* 在 IE 中不起作用

文章推荐： ruby - 如何使用 Mechanize 填充 dom 节点输入的值？

css - gumby 框架 CSS 框架
我需要开发一个简单的网站，我通常使用 bootstrap CSS 框架，但是我想使用 Gumbyn，它允许我使用 16 列而不是 12 列。我想知道是否: 我可以轻松地改变绿色吗？如何使用固定布局
php - 框架 - 什么是 PHP 框架？
这个问题在这里已经有了答案: 关闭 13 年前。与直接编写 PHP 代码相比，使用 PHP 框架有哪些优点/缺点？
java - 集成 Play 框架 2.0 和 Spring 框架
我开发了一个 Spring/JPA 应用程序:服务、存储库和域层即将完成。唯一缺少的层是网络层。我正在考虑将 Playframework 2.0 用于 Web 层，但我不确定是否可以在我的 Play
java - 如何将我的新 Spring 框架 Web 应用程序与启用了单点登录 (SSO) 的 Struts 框架 Web 应用程序链接
我现有的 struts Web 应用程序具有单点登录功能。然后我将使用 spring 框架创建一个不同的 Web 应用程序。然后想要使用从 struts 应用程序登录的用户来链接新的 spring 应
java - Java Web 框架(Ninja 和 Spark 框架)出现 MySQL unicode 错误
我首先使用Spark框架和ORMLite处理网页上表单提交的数据，在提交中文字符时看到了unicode问题。我首先想到问题可能是由于ORMLite，因为我的MySQL数据库的字符集已设置为使用utf8
c# - 如何在 .net 解决方案中有两个项目，一个针对 4.0 框架，另一个针对 4.5 框架？
我有一个使用 .Net 4.5 功能的模块，我们的应用程序也适用于 XP 用户。所以我正在考虑将这个 .net 4.5 依赖模块移动到单独的项目中。我怎样才能有一个解决方案，其中有两个项目针对不同的版
php - 将 Ajax/UI JS 框架(ext、jquery-ui)与 MVC PHP 框架(zend、symfony)结合起来是个好主意吗？
我知道这是一个非常笼统的问题，但我想我并不是真的在寻找明确的答案。作为 PHP 框架的新手，我很难理解它。 Javascript 框架，尤其是带有 UI 扩展的框架，似乎通过将 JS 代码与设计分开来
ORM 框架
我需要收集一些关于现有 ORM 解决方案的信息。请随意编写任何编程语言。你能谈谈你用过的最好的 ORM 框架吗？为什么它比其他的更好？最佳答案我使用了 NHibernate 和 Entity
iPhone 框架
除了 Apple 的 SDK 之外，还有什么强大的 iPhone 框架可供开始开发？有没有可以加快开发时间的方法？最佳答案此类框架最大的是Three20 。 Facebook 和许多其他公司都使用
JavaScript 框架
有人可以启发我使用 NodeJS 的 Web 框架吗？我最近开始从免费代码营学习express js，虽然一切进展顺利，但我对express到底是什么感到困惑。是全栈框架吗？纯粹是为了后端吗？我发现您
AJAX 框架
您可以推荐哪种 Ajax 框架/工具包来构建使用 struts 的 Web 应用程序的 GUI？最佳答案我会说你的 AJAX/javascript 库选择应该较少取决于你的后端是如何实现的，而更多
Python 框架
我有生成以下错误的 python 代码: objc[36554]: Class TKApplication is implemented in both /Library/Frameworks/Tk.
Karate 框架 - 如何使用声明的变量作为请求对象的参数？
首先，很抱歉，如果我问的问题很明显，因为我没有编程背景，那我去吧: 我想运行一系列测试场景并在背景部分声明了几个变量(我打印它们以仔细检查它们是否已正确声明)，第一个是整数，另外两个字符串为你可以看到
ffmpeg - 选择用于视频捕获和录制的库/框架
在我们承担的一个项目中，我们正在寻找一个视频捕获和录制库。我们的基础工作(基于 google 搜索)表明 vlc (libvlc)、ffmpeg (libavcodec) 和 gstreamer 是三
multithreading - 我该如何打断Play中的实时任务!框架
我试过没有运气的情况下寻找某种功能来杀死/中断Play中的正常工作!框架。我想念什么吗？还是玩了!实际没有添加此功能？最佳答案 Java stop类中没有像Thread方法那样的东西，由于种种原因
logging - 最小开销分布式事件日志库/框架？
我们希望在我们的系统中保留所有重大事件的记录。例如，在数据库可能存储当前用户状态的地方，事件日志应记录对该状态的所有更改以及更改发生的时间。事件记录工具应该尽可能接近于事件引发器的零开销，应该容纳结
ActionScript tdd 框架
那里有 ActionScript 2.0/3.0 的测试框架列表吗？最佳答案 2010-05-18 更新由于这篇文章有点旧，而且我刚刚收到了赞成票，因此可能值得提供一些更新的信息，这样人们就不会追
python - numpy数组的快速条件重叠窗口(框架)
我有一个巨大的 numpy 数组列表(一维)，它们是不同事件的时间序列。每个点都有一个标签，我想根据其标签对 numpy 数组进行窗口化。我的标签是 0、1 和 2。每个窗口都有一个固定的大小 M。
playframework - 配置变量在玩!框架
我是 Play 的新手!并编写了我的第一个应用程序。这个应用程序有一组它依赖的 URL，从 XML 响应中提取数据并返回有效的 URL。此应用程序需要在不同的环境(Dev、Staging 和 Pro
Scala CQRS 框架
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

python - 使用嵌套框架和 javascript 进行网页抓取