- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是网络抓取新手。所以我接到了一项任务,从以下位置提取数据:Here
我正在选择“评论”数据集。下面是我的抓取代码。
import requests
from bs4 import BeautifulSoup
url = 'https://www.kaggle.com/hacker-news/hacker-news'
headers = {'User-Agent' : 'Mozilla/5.0'}
response = requests.get(url, headers = headers)
response.status_code
response.content
soup = BeautifulSoup(response.content, 'html.parser')
soup.find_all('tbody', class_ = 'TableBody-kSbjpE jGqIxa')
当我尝试执行最后一个命令时,它返回:[]
。
所以,我被困在这里了。我知道我们可以从内核获取数据,但仅出于练习目的我哪里出错了?我是不是选错类(class)了?我想抓取数据并可能将其保存到 CSV 文件或 No-SQL 数据库,首选 Cassandra。
最佳答案
您得到这个[]是因为您想要抓取的数据来自 API,该 API 在网页加载后加载,因此您访问的页面不包含该类
您可以打开浏览器控制台并检查屏幕截图中给出的网络,您会在其中找到要抓取的数据,因此您必须向该 URL 发出请求才能获取数据
您可以在预览选项卡中检索此 URL 中的数据,您可以看到所有数据。
如果你对Python有很好的了解,你也可以用它来抓取数据
关于python - 美丽汤返回空列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51839937/
我正在努力学习 Ruby Koans 以尝试学习 Ruby,到目前为止一切顺利。我已经得到了贪婪的公案,在撰写本文时它是 183。我有一个可行的解决方案,但我觉得我只是拼凑了一堆 if/then 逻辑
我正在尝试创建一个扩展 boost 图形库行为的类。我希望我的类是一个模板,用户提供一个类型(类),用于在每个顶点存储属性。那只是背景。我正在努力创建一个更简洁的 typedef 来定义我的新类。 基
我正在使用 suds 包从网站查询 API,从他们的网站返回的数据如下所示: (1)。谁能告诉我这是什么格式? (2)。如果是这样,解析数据的最简单方法是什么?我已经使用 BeautifulSoup
所以我有一个看起来像这样的 html 文档: Speaker Name: Title of Talk | Subtitle | website.com ... [Other Stuff] Poste
我是一名优秀的程序员,十分优秀!