python - 尝试从新闻文章中提取元数据-6ren

python - 尝试从新闻文章中提取元数据

转载作者：太空宇宙更新时间：2023-11-03 16:16:29

25

4

我正在尝试从 cnn 文章中提取元标记

import httplib2
from bs4 import BeautifulSoup

http = httplib2.Http()
status, response = http.request(http://www.cnn.com/2016/08/09/health/chagas-sleeping-sickness-leishmaniasis-drug/index.html)
soup = BeautifulSoup(response)
print(soup.select('body > div.pg-right-rail-tall.pg-wrapper.pg__background__image > article > meta'))

我正在尝试将其范围缩小到仅此输出

<meta content="health" itemprop="articleSection"><meta content="2016-08-09T12:10:24Z" itemprop="dateCreated"><meta content="2016-08-09T12:10:24Z" itemprop="datePublished"><meta content="2016-08-09T12:10:24Z" itemprop="dateModified"><meta content="http://www.cnn.com/2016/08/09/health/chagas-sleeping-sickness-leishmaniasis-drug/index.html" itemprop="url"><meta content="Meera Senthilingam, for CNN" itemprop="author"><meta content="Could one discovery take on three deadly parasites?  - CNN.com" itemprop="headline"><meta content="Three seemingly different diseases infect 20 million people each year: Chagas disease, leishmaniasis and African sleeping sickness. But one drug could be developed to fight all three." itemprop="description"><meta content="sleeping sickness, disease, drug, drug development, chagas disease, leishmaniasis, Novartis, health, Could one discovery take on three deadly parasites?  - CNN.com" itemprop="keywords"><meta content="http://i2.cdn.turner.com/cnnnext/dam/assets/150812101743-chagas-bug-large-tease.jpg" itemprop="image"><meta content="http://i2.cdn.turner.com/cnnnext/dam/assets/150812101743-chagas-bug-large-tease.jpg" itemprop="thumbnailUrl"><meta content="Could one discovery take on three deadly parasites? " itemprop="alternativeHeadline">

但由于某种原因，BeautifulSoup.select() 方法返回的 html 数量是我想要的 100 倍。我非常感谢任何有关如何解决此问题的建议。

最佳答案

问题在于解析器/html，lxml 和 html5lib 可以满足您的需求。

soup = BeautifulSoup(response,"lxml")

或者:

 soup = BeautifulSoup(response,"html5lib")

如果您没有安装 lxml 或 html5lib，您可以使用 pip、lxml 安装 html5lib> 涉及的内容更多，具体取决于您的操作系统，因为它有一些依赖项，但绝对值得安装。

您还可以简化您的选择:

soup.select('div.pg-right-rail-tall.pg-wrapper.pg__background__image meta')

关于python - 尝试从新闻文章中提取元数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38907114/

25

4

0

文章推荐： ruby - 如何更新节点集

文章推荐： windows-runtime - Windows 应用商店应用试用期实现

文章推荐： paypal - 查找 paypal api 凭据

文章推荐： ruby - 选择带有参数的随机 I18n 翻译

javascript - 新闻/更新下拉部分
我最近开始接触网络编程，我完全不知所措。我已经开始学习基础知识、html、css 和 javascript。在我的第一个网页上，我有兴趣为我发布更新的地方实现一个下拉新闻部分。我能举出的最好的例子就是
css - 新闻 |内容区域不会自动展开
我的 Wordpress 主题在我放大评论框时没有扩展其内容区域，因此整个内容都在页脚上。页脚保持固定在页面底部，但当我展开评论框时不会自行向下推... 我尝试阅读其他问题，但我没有解决那个问题。代
TYPO3 新闻 (tx_news) 记录排序不起作用
我正在运行 TYPO3 V6 和最新版本的 tx_news(不是 tt_news)，当我尝试更改 LIST 显示的排序顺序时，插件中的设置不会覆盖 Typoscript 设置。似乎没有办法更改 Lis
php - Google 新闻 - 网址方案和主键
根据 Google 允许您的文章/新闻出现在 Google 新闻中: Display a three-digit number. The URL for each article must conta
php - 新闻 | Woocommerce 自定义注册表格
我想问一下是否可以使用表单提交后发送到用户邮件的唯一代码创建注册，我不确定如何正确地做。 for example : The user enters his email and the system
python - 微调预训练的 word2vec Google 新闻
我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(来自 here)由于这只针对 2013 年之前的新闻进行训练，因此我需要根据 2013 年之后的新闻更新向量并在词汇表中添加
css - 新闻| span tag 发生的地方是不可见的
所有的麻烦都开始了，我无法按画廊的右箭头(右箭头出现在图片中) 我看到只有当我将栏移到右侧时，我才能点击箭头。如您所见，我在 Firefox 中打开了 F12，指向了网站的右侧部分。我看到它是空的
html - 纯 CSS 新闻/信息提要
我有一些代码运行良好，它只是添加了一个水平新闻提要(或我列出的任何信息)它运行良好，没有闪烁，但是当我向它添加更多数据时，它似乎需要一段时间才能加载并且速度变化？我还有很多信息要添加到其中，但我不想在
apache - URL 新闻 ID 的重写规则
我有点坚持 RewriteRule 301，从旧新闻 ID 更改为新新闻 ID 这是我尝试过的: RewriteRule ^/news/0(.*)$ /news/$1 [L,R=301] 假设新闻 U
rss - 我可以在我的网站上自定义 Google 新闻 RSS 提要的外观吗？
我对 Google 新闻 RSS 提要的使用有疑问。 Google 新闻帮助说明了这一点: Why Google might block an RSS feed In some cases, Goog
rss - 通过 Google 新闻 RSS 选择自定义主题
我想在我的网站上加入新闻，但主要主题必须是“书籍”或“作者”等。基本上，我需要选择我提到的这两个或作者姓名等自定义主题。但我不知道怎么做，因为文档真的很差(或者我找不到)。添加它的查询参数是什么？
java - 用 Java 解析 Google 新闻
最好的方法是什么？我想解析新闻，然后使用关键字之类的内容过滤它们并找到匹配项。有人已经这样做了吗？而且，这是合法的吗？最佳答案您可以使用 google 新闻网址 http://news.goo
javascript - js 新闻 api promise 无法获取某些值
我有一个获取热门新闻头条的 js 函数。它已按 promise 返回，但我无法访问这些文章。这是我的代码 function news09() { var url = 'https://ne
swift - 添加加载更多动画(如 Facebook 新闻)的最佳方式？
我想让我的 TableView 加载更多动画，例如 Facebook 新闻，并在底部显示动画指示器事件。有什么指导可以帮助我做到这一点吗？谢谢。最佳答案有几种方法可以做到这一点在最后一个 in
php - 新闻系统问题(PHP 和 Mysql)
我正在为我的网站创建一个新闻系统。我有一个主页 {index.php}(显示所有文章)和一个文章页面 (article.php) 我遇到的问题是在文章页面上选择内容。当你点击 index.php 上
python - 新闻 API - 将输出输出到 Pandas DataFrame
我已成功调用新闻 API 并将结果放入 DataFrame，但仅限于第 1 页。 def get_articles(keyword): all_articles = newsapi.get_eve
jquery - 新闻 slider CSS 和 HTML
我有一个适合我网站的新闻 slider ，我想使用它，但我遇到了一个小问题。完成 HTML 和 CSS 后，我需要旋转“展示柜”，现在我已经尝试使用 Jquery 的不同指令，但一点运气都没有。有人可
javascript - 使用 JSON 新闻 api 创建搜索查询
因此，我必须根据编写的 javascript 文件(如下)创建搜索查询，并且还必须使用此 URL 来创建搜索查询。在 URL 末尾，您可以添加任何您喜欢的搜索词。例如，我们将搜索食物:https://
image - TYPO3 新闻 : show first image in preview
我在 TYPO3 8.7.13 中使用来自 Georg Ringer 的新闻扩展。如果没有选择图像进行预览，扩展程序会显示一个虚拟图像。是否可以改用文章中的第一张图片？谢谢最佳答案当然，您需要
configuration - Typo3 6.0 - TCA - 新闻 - 在选择字段中隐藏某些类型的新闻
我是typo3 的新手，我需要有关新闻扩展和$TCA 配置的帮助。我做了一个名为“Activité”的扩展，它从 News 扩展而来。这很顺利。我创建了一些自定义字段，并且能够从“常规”选项卡中已经

首页

博学

6Ren·AI

商城

python - 尝试从新闻文章中提取元数据