python - 使用phantomjs获取链接地址-6ren

python - 使用phantomjs获取链接地址

转载作者：太空宇宙更新时间：2023-11-03 17:36:47

24

4

我正在尝试获取此页面上每个 div 的文章网址:https://www.google.com/trends/home/all/IN我可以获得图像链接和标题，但对于文章链接，它给出

Traceback (most recent call last):
  File "google.py", line 25, in getGooglerends
    print s.find_elements_by_class_name('image-wrapper').get_attribute('href')
AttributeError: 'list' object has no attribute 'get_attribute'

代码:

driver = webdriver.PhantomJS('/usr/local/bin/phantomjs')
driver.set_window_size(1124, 850)
driver.get("https://www.google.com/trends/home/all/IN")
trend = {}
def getGooglerends():
    try:
    #Does this line makes any sense
        #element = WebDriverWait(driver, 20).until(lambda driver: driver.find_elements_by_class_name('md-list-block ng-scope'))
        for s in driver.find_elements_by_class_name('md-list-item-block'):
            print s.find_element_by_tag_name('img').get_attribute('src')
            print s.find_element_by_tag_name('img').get_attribute('alt')
            print s.find_elements_by_class_name('image-wrapper').get_attribute('href')
    except:
        import traceback
        print traceback.format_exc()
getGooglerends()

对于从 anchor 标记获取文章链接有什么建议吗？

最佳答案

WebDriver.find_elements_by_class_name返回元素列表，而不是单个元素。

s.find_elements_by_class_name('image-wrapper')
              ^

使用WebDriver.find_element_by_class_name而不是WebDriver.find_elements_by_class_name .

s.find_element_by_class_name('image-wrapper')

关于python - 使用phantomjs获取链接地址，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31109678/

24

4

0

文章推荐： c# - .NET 3.5应用程序上的.NET Runtime 2.0错误

文章推荐： ruby-on-rails - Rails 新形式 -> 无

文章推荐： ruby - 构建正则表达式以仅匹配 2 个单词

文章推荐： c# - 使用StreamReader复制图像时损坏

phantomjs - 在指定路径找不到 phantomjs
我正在尝试开始使用 Mermaid CLI，但是当我尝试针对我的源文件运行它时，它说找不到 phantomjs。 (我运行的是 Win 7 64。) C:\Users\Chris\Documents>
phantomjs - PhantomJS:调用电话时指定用户代理
我正在使用PhantomJS来调用网页，如下所示: page.open('http://example.com', function (s) { console.log(page.content)
phantomjs - phantomjs 会定期自动清除缓存吗？
如果有这样的功能，我需要更改Phantomjs自动清除缓存的默认时间。有什么想法吗？最佳答案应该是您正在寻找的功能: https://github.com/ariya/phantomjs/issu
phantomjs - 运行脚本后自动关闭 PhantomJs
我想从我的程序运行 PhantomJs 脚本，但由于脚本可能不是我写的，我需要确保 PhantomJs 在执行完成或因任何原因(例如无效语法、超时、 ETC)。到目前为止，我读到的所有内容都说你必须始
phantomjs - Karma Jasmine PhantomJS- PhantomJS 没有在 60000 毫秒内捕获
在 Package JSON 中，我尝试了许多不同版本的 karma-phantomjs-launcher、phantomjs，包括 phantomjs-prebuilt。当前包 JSON “开发依
phantomjs - 如何调试 PhantomJS 脚本？
我的脚本有一些语法错误，但 PhantomJS 没有显示任何错误，而是没有显示任何内容。如果脚本有错误，为什么 Phantom JS 不显示解析错误？在以下 PhantomJS 脚本(通过 Wind
phantomjs - CasperJS/PhantomJS 如何保持旧页面打开？
我有一些需要填写的动态输入表单。问题是要填写表格，我需要访问另一个页面以获取取决于上一页输入的数据。因此，在我获得数据然后返回表单后，表单已经更改，因此我需要在获取数据时保持该表单打开。那么问题是如何
phantomjs - 根据内容裁剪 PhantomJS 屏幕截图
PhantomJS 在为我捕获网页到图像文件方面做得很好。我正在使用基于 rasterize.js 的脚本。但是，对于某些固定大小的 Web 元素，我需要生成的图像与 Web 元素的大小相匹配。例
phantomjs - 仅在发生客户端重定向后如何结束 PhantomJS 脚本
我正在将 PhantomJS headless 浏览器集成到我的一个项目中(目前使用 1.6 版)。在大多数情况下，它在完成我需要完成的工作方面做得很好。但是，WebPage.open() 调用工作方
phantomjs - 将变量传递到page.evaluate-PhantomJS
是否可以在page.evaluate中传递变量？ function myFunction(webpage, arg1, arg2){ var page = require('webpage').cre
phantomjs - 可靠地检测基于 PhantomJS 的垃圾邮件机器人
有没有办法始终如一地检测 PhantomJS/CasperJS？我一直在处理用它构建的一系列恶意垃圾邮件机器人，并且能够根据某些行为基本上阻止它们，但是我很好奇是否有一种坚如磐石的方法来了解 Casp
phantomjs - 在 PhantomJS 中使用自定义响应拦截请求？
有没有办法拦截资源请求并直接从处理程序给出响应？像这样的事情: page.onRequest(function(request){ request.reply({data: 123}); });
phantomjs - 如何控制 PhantomJS 跳过下载某种资源？
phantomjs 有配置 loadImage，但我想要更多，如何控制phantomjs跳过下载某种资源，比如css等... ===== 好消息:已添加此功能。 https://code.goo
phantomjs - 在 PhantomJS 中禁用内容安全策略
我正在尝试在 PhantomJS (2.1.1) 的 page.evaulate() 调用中使用 WebSocket。当尝试连接到 WebSocket 服务器时，出现以下错误: 安全错误:DOM 异常
phantomjs - 为 phantomjs 的每个实例指定不同的缓存目录
我正在使用 PhantomJS 1.8，但遇到了一个限制——您无法指定它用于磁盘缓存的目录。我将其添加到他们的问题跟踪系统中，但由于以前没有它，所以我不希望它很快添加。因此，我正在寻找解决此限制的方
phantomjs - 如何使用 phantomJs 滚动页面
我想渲染一个仅在用户滚动页面时加载图像的页面。仅设置 page.scrollPosition 没有任何效果。我需要一些可以随时间改变滚动位置的东西。最佳答案不确定这是否是最好的方法，但它确实有效。
phantomjs - 使用 PhantomJS 设置远程调试
我正在尝试使用 PhantomJS 设置远程调试，但运气不佳。我按照 https://github.com/ariya/phantomjs/wiki/Troubleshooting 上的说明进行操作。
phantomjs - 调试 PhantomJS 网页打开失败
在 PhantomJS 中，webpage.open 会使用状态参数设置为“成功”或“失败”的回调。根据文档，如果没有发生网络错误，则“成功”，否则“失败”。有没有办法查看导致失败的底层网络错误？当
phantomjs - 使用 phantomjs 读取响应体
有什么方法可以使用 phantomjs 请求资源并能够到达响应的主体吗？最佳答案更新:关于“获取并使用所有其他资源(如图像、CSS、字体等)做某事”的其他可能含义，我最近在博客上写了 how to
phantomjs - 加快 phantomjs 屏幕捕获时间？
在运行 PhantomJS 提供的 rasterize.js 示例时，我发现我必须等待 20 秒或更长时间才能生成网页图像。有没有可能在不消耗大量资源的情况下加快速度的方法？我基本上希望快速生成从加

首页

博学

6Ren·AI

商城

python - 使用phantomjs获取链接地址