python - 无法使用 scrapy 从 Reddit 嵌入式提要窗口中获取 `href`-6ren

python - 无法使用 scrapy 从 Reddit 嵌入式提要窗口中获取 `href`

转载作者：太空狗更新时间：2023-10-30 01:10:55

28

4

我正在尝试从以下链接的 reddit 提要窗口中获取 reddit 帐户名称:

fetch('https://coinmarketcap.com/currencies/ripple/')

现在，我可以使用以下代码成功获取 Twitter 帐户详细信息:

#fetch the tweet account of coin
tweet_account = response.xpath('//a[starts-with(@href, "https://twitter.com")]/@href').extract()
tweet_account = [s for s in tweet_account if s != 'https://twitter.com/CoinMarketCap']
tweet_account = [s for s in tweet_account if len(s) < 60 ]
print(tweet_account)

但是，我无法使用类似的方法获得 reddit 帐户？？

reddit_account = response.xpath('//a[starts-with(@href, "https://www.reddit.com")]/@href').extract()
reddit_account = [s for s in reddit_account if s != 'https://www.reddit.com/r/CoinMarketCap'']
reddit_account = [s for s in reddit_account if len(s) < 60 ]
print(reddit_account)

即使我尝试使用简单的 xpath 直接获取数据，但它不起作用:

response.xpath('//*[@id="reddit"]/div/div[1]/h4/a[2]/@href')

输出为:

response.xpath('//*[@id="reddit"]').extract()

表演

<b>['<div id="reddit" class="col-sm-6 text-left">\n</div>']</b>

但是这个div标签里面还有很多标签？？为什么我无法获得这些标签？？

不幸的是，Scrapy 无法找到这个 div 中的内容。这个 reddit 提要甚至没有 iframe。我应该调用任何单独的 URL 吗？？

编辑<\b>:

我确实在 shell 中显示(响应)。它有 twitter 数据但没有 reddit ??为什么会这样？

最佳答案

所有数据都不会在网站中显示的页面源中。如果您使用的是 google chrome 浏览器，请按 ctrl+u 查看页面源，然后按 ctrl+f 搜索您想要的数据。如果它不在页面源中，您可能必须发送一些其他请求才能获取数据。

关于python - 无法使用 scrapy 从 Reddit 嵌入式提要窗口中获取 `href`，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55332452/

28

4

0

文章推荐： c# - OracleConnection 生命周期 - 最佳实践

文章推荐： python - 打印二维列表的一部分

文章推荐： c# - WPF 沿路径绘制箭头

文章推荐： python - 为什么 python 实现使用的内存比 C 多 9 倍？

ios - 底部标签栏上方的间隙 - 嵌入式 NavigationController + 嵌入式 TableViewController
这个问题困扰了我几天。这是我的相关 Storyboard布局: 我已经将阳光下的每个布局都设置为所有三个 View Controller ，并且仍然得到一个在横幅 View 上方有一个“间隙”的结果
c++ - 嵌入式 web 控件 (IWebBrowser2)，嵌入式 javascript 的 onkeydown 和 onkeyup 不触发
我正在我的 C++ 程序中嵌入一个网页。我遇到的问题是，在嵌入式页面的 javascript 中，我可以捕获 onkeypress，但不会触发 onkeydown 和 onkeyup。如果我在非嵌入
embedded - 嵌入式+实时开发培训建议
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
memory - 嵌入式/内存LDAP服务器解决方案
我有一个 java web 应用程序。我想创建一个嵌入式 LDAP 服务器，当 web 应用程序运行时，我将向 LDAP 插入一些记录，并且有另一个 web 应用程序将访问此 LDAP 以获取信息。可
Maven Tomcat(嵌入式)
我正在尝试通过 tomcat maven 插件将 war 部署到嵌入式 tomcat 服务器。控制台显示服务器启动正常。看来 war 还没有展开。当我访问 http://localhost:9090
python - 嵌入式 if 语句
假设我有如下函数: bigrams=[(k,v) for (k,v) in dict_bigrams.items() if k[:pos_qu]==selection[:pos_qu
Python 嵌入式 C++
我读过一些关于 python 嵌入式 C++ 的教程。我曾引用过 python 对象。 https://docs.python.org/3/c-api/function.html Python 脚本:
c - 在调试符号中显示宏(嵌入式)
我正在使用嵌入式应用程序，在调试期间，调试器无法解析宏符号(我的理论:因为宏在预处理中丢失了)。我最终不得不先在源代码中找到宏，然后使用定义来监视变量。我的问题是:有没有办法将宏定义合并到 elf
c - 如何使用主应用程序和引导加载程序中的一项功能？ (嵌入式)
首先我要说的是我开发的是基于cortex m4的嵌入式设备应用。我有引导加载程序和主应用程序通用的功能。现在我为引导加载程序和应用程序编译源文件 2 次。但是我的双库 dfu 空间不足，我想在 RO
c++ - 链接器如何决定代码执行将从哪里开始？ [嵌入式]
作为嵌入式 C 编程的初学者，我很好奇每个(根据我的经验)程序执行是如何从 main() 函数开始的？这就像链接器识别 main() 并将那个“特殊” 函数的地址放入重置 vector 指向的地址。
algorithm - 快速循环打印十进制数字(嵌入式)
在我的实时嵌入式处理器固件中，我需要十进制数字的格式化打印。标准 printf/sprintf 在工具链中不可用，所以我需要自己实现它。我使用了除以十并取余的天真方法。但是我的目标处理器本身不支持除
java - 嵌入式 if 语句的替代方案？
我有编程经验，但在软件开发方面了解不多。我目前正在为我工作的公司编写一个软件，我开始挑战自己代码的可读性。我想知道这是否是嵌入式 if 语句的“有效”替代方案，或者我是否可以使用更好的方法。假
嵌入式 Linux 中的缓存和非缓存内存访问
我有一个运行嵌入式 Linux 的嵌入式目标，我想计算以下时间: 1) 高速缓存读/写时序2) uncache 内存读/写时序 Linux 中是否有任何标准测试来计算上述时间？我已经编写了自己的测试
嵌入式 Linux 系统的组件
大多数嵌入式设备都是为了在通常资源受限或低规格的设备上执行特定任务而构建的。因此，大多数嵌入式开发人员需要去除不必要的库和模块，并为其特定设备和用例创建自定义分发。我们先来了解一下嵌入式 Linu
c - 嵌入式 c - 如何在程序崩溃时释放分配的内存
我正在嵌入式处理器上编写一个简单的裸机应用程序。作为此应用程序的一部分，它必须使用 malloc 在大约 256kB 的堆上分配一些内存。注意:最初这是在 main 中静态分配的，但在一定的大小限制下
html - 嵌入式 Youtube 视频未填满屏幕
我正在尝试为我 friend 的婚礼建立一个网站。我使用的是 Bootstrap 5，嵌入的视频没有填满屏幕大小。这是一个 live test page HTML: 您还需要代码吗？我想让视频的全宽
c - 嵌入式 GCC 优化魔法
我有一个项目，我尝试为微 Controller 构建固件并尝试更好地控制所使用的优化标志。我想，而不是使用 -O flag 分别指定不同的优化标志。不幸的是，-O 似乎发生了一些优化魔法。我无法使用单
c++ - 如何在不同内核之间正确共享运行时创建的多态数据？嵌入式 C++
我正在使用双核设备，并且要求核心 A 创建一个数据结构，其中包含在核心 B 上运行的函数列表的参数，定期更新它并通知核心 B。参数和类型的数量可以改变在运行期间。我的计划如下.. 创建一个 Para
.net - 嵌入式 WebBrowser 控件拦截水平滚动事件
我们有一个 Microsoft.Phone.Controls.WebBrowser内嵌控件 StackPanel , 在 PivotItem 内在 Windows Phone 8 上。以简化的形式，它
javascript - 嵌入式 js 代码如何在页面上插入表单或其他动态内容？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 2 年前。 Improve this ques

首页

博学

6Ren·AI

商城

python - 无法使用 scrapy 从 Reddit 嵌入式提要窗口中获取 `href`