python - 网络抓取最常见的名字-6ren

python - 网络抓取最常见的名字

转载作者：太空宇宙更新时间：2023-11-04 01:59:51

27

4

我需要网络抓取 a web page并找到五个最常见的名字。预期的输出应该是这样的

[
    ('Anna Pavlovna', 7), 
    ('the prince', 7), 
    ('the Empress', 3), 
    ('Theprince', 3), 
    ('Prince Vasili', 2),
]

我的代码确实计算了最常见的名字，但输出看起来像这样:

 [(<span class="green">Anna Pavlovna</span>, 7),
 (<span class="green">the prince</span>, 7),
 (<span class="green">the Empress</span>, 3),
 (<span class="green">The prince</span>, 3),
 (<span class="green">Prince Vasili</span>, 2)]

如何使我的输出看起来像样例输出？

import nltk

from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
soup=BeautifulSoup(html,'html.parser')

nameList = soup.findAll("span", {"class":"green"})  # may use bsObj.find_all()


fdist1 = nltk.FreqDist(nameList)
fdist1.most_common(5)

最佳答案

页面显示错误 502 Bad Gateway，但我想我知道你的问题是什么。当您使用 findAll 时，它会为您提供 bs4 元素而不是字符串。因此，您需要使用 obj.get_text() 之类的方法将其转换为字符串。 see documentation

items = soup.findAll("span", {"class": "green"})
texts = [item.get_text() for item in items]
# Now you have the texts of the span elements

顺便说一句，您的代码示例不正确，因为 bsObj 不会被定义。

关于python - 网络抓取最常见的名字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55932642/

27

4

0

文章推荐： node.js - 同步两个 MongoDB 集合

文章推荐： c++ - 通过宏替换展开循环无效

文章推荐： javascript - 使用feathersjs创建后无法从对象中删除_id字段

SQl 语句(常见)
新建表： create table [表名] ( [自动编号字段] int IDENTITY (1,1)&nbs
iphone - 常见 UI 字符串的本地化
我的文件中有正在本地化的字符串。其中许多是常见的，并且已经在整个 iOS 中使用。例如。 “保存”、“加载”、“返回”、“收藏夹”、“拍照”。为了与其他应用程序和内置应用程序提供一致的用户体验，是否有
qt - 常见 Qt 问题
我已经学习了 Qt 的基础知识，现在对这个漂亮的库的深度感兴趣。请帮助我理解: 所有类都是从QObject派生的吗？为什么可以在QWidget(和派生类)上绘画？ return app.exec()
javascript - 常见 JS - 是否可以要求一个函数
我在 webpack 中设置了一个自调用函数，并使用常见的 JS 来需要一些包: (function() { var $ = require("jquery"); //...my functi
java - 常见 nlp 任务的效率
我正在尝试制作一个大量使用词性标记的应用程序。但是 nltk 的 pos 标记功能对我来说似乎不符合标准 - 例如: import nltk text = "Obama delivers his fi
php - 常见 MYSQL 查询的缓存
有没有办法处理发送到 MySQL 的常见查询以防止不必要的带宽使用？最佳答案选项是: 使用MySQL缓存查询好:全自动差:仍然需要访问数据库服务器；有一次缓存让我在一个项目中失望，花了很长时间
c# - 常见 Linq 表达式的示例
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
mobile - AdSense - 移动广告未在某些(常见)设备上显示
关闭。这个问题需要debugging details .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve this questio
java - 常见 io copyUrlToFile 不起作用
我正在尝试调用返回 csv 文件的网络服务。因此，我调用的每个 URL 都有一个后缀，它是一个字符串，表示要生成哪个 csv。然后我想将此 csv 保存到文件中。有很多要生成，所以我从多个线程调用此类
android - 常见/典型 Android 设备上的触摸点数量
流行手机型号支持的典型触摸点数量是多少？我在基础研究中看到低至 2 和高至 5，但我希望能够将其映射到实际手机和更好的限制! 最佳答案两部手机的触控点数据: Galaxy S 5 LG
Web 堆栈 - 常见 Web 堆栈/环境的列表
出于好奇 - 我知道有 LAMP - Linux、Apache、MySQL 和 PHP。但是还有哪些其他 Web 堆栈替代方案的缩写呢？像 LAMR - Linux、Apache、MySQL Ruby
java - 无法连接到 SFTP 服务器 Apache 常见
我写了一个java代码(使用apache common vfs2)来上传文件到SFTP服务器。最近，我在我的服务器上引入了 PGP 安全性。现在，java 代码无法连接到该服务器。与 FileZill
c++ - 在 OpenGL 中绘制形状的标准(常见)方法是什么？
由于 GLU 被认为对于现代 OpenGL (3.1+) 来说已经过时，那么使用 C/C++ 在 OpenGL 中绘制基本形状(例如椭圆或弧线/饼图)的方法是什么？令人难以置信的是，在 OpenGL
ios - 常见 iOS 应用程序的 URL 方案
我想知道是否有最流行的 iOS 应用程序的自定义 URL 方案列表，例如 Keynote、Numbers、Pages、Evernote 等。我还想知道这些应用程序使用什么参数网址。我需要这个的原因是
c++ - 常见 Linux 路径名在 Android 上对应的目录是什么？
我正在使用 NDK r10d 移植 C++ myToll Linux 应用程序以在 Android 上运行。 (请注意，这不是带有 apk 的 Android 应用程序，而是从 shell 运行的实用
php - 常见 PHP 服务器应用程序的 UML 部署图
假设您想要使用 UML 2 部署图为在该领域没有太多知识的人可视化一个常见的 PHP 服务器应用程序。这样一个通用的应用程序可能有三个设备节点(数据库服务器、Web 服务器和客户端)和四个执行环境节点
apache - hadoop mapreduce 常见 friend reducer 溢出
我正在尝试运行以下代码，以找到两个人之间的共同 friend 。输入如下 A : B C D B : A C D E C : A B D E D : A B C E E : B C D 我无法在输出文
git - 在 Git 中跟踪 Gitolite(常见)钩子(Hook)
我在 Gitolite 的 manual 中找到的唯一东西在钩子(Hook)上，是: If you want to add your own hook, it's easy as long as it
amazon-web-services - 常见 AWS 故障 - 处理 AZ 故障转移
具体来说，我有一个问题，在 AWS 环境中组织 AZ 故障转移的推荐方法是什么。此外，最好了解典型的 AWS 故障以组织应用程序 HA(高可用性)。因此，应用程序架构(AWS 服务使用)如下: 它或
java - 常见 spring NoRepositoryBean 基接口(interface)上的 PreAuthorize 问题
我正在尝试编写一个通用的 SecurePagingAndSorting 存储库，它将检查 CRUD 操作的安全性，以节省在所有 JPA 存储库中重复相同的 PreAuthorize(使用不同的权限)。

首页

博学

6Ren·AI

商城

python - 网络抓取最常见的名字