python - 使用 BeautifulSoup 提取特定的 dl 和 dd 列表元素-6ren

python - 使用 BeautifulSoup 提取特定的 dl 和 dd 列表元素

转载作者：搜寻专家更新时间：2023-10-31 23:00:09

24

4

第一次发帖。我正在使用 BeautifulSoup 4 和 python 2.7 (pycharm)。我有一个包含元素的网页，我需要提取标签为“薪水:”或“日期:”的特定元素，该页面包含多个列表。

问题:我似乎无法识别和提取特定文本。我已经搜索过这个网站并尝试过但没有成功。

示例 html:

<dl><dt>Date:</dt><dd>13 September 2015</dd><dt>Salary:</dt><dd>Starting at £40,130 per annum.</dd></dl><dl><dt>Date:</dt><dd>15 December 2015</dd><dt>Salary:</dt><dd>Starting at £22,460 per annum.</dd></dl><dl><dt>Date:</dt><dd>10 January 2014</dd><dt>Salary:</dt><dd>Starting at £18,160 per annum.</dd></dl>

我试过没有成功的代码:

r = requests.get("http://www.mywebsite.com/test.html")
soup = BeautifulSoup(r.content, "html.parser")
dl_data = soup.find_all("dl")
for dlitem in dl_data: 
    print dlitem.find("dt",text="Date:").parent.findNext("dd").contents[0]
    print dlitem.find("dt",text="Salary:").parent.findNext("dd").contents[0]

预期结果:

13 September 2015
15 December 2015
10 January 2014
Starting at £40,130 per annum.
Starting at £22,460 per annum.
Starting at £18,160 per annum.

实际结果:

print dlitem.find("dt",text="Date:").parent.findNext("dd").contents[0]
AttributeError: 'NoneType' object has no attribute 'parent'

我尝试了此代码的多种变体并绕了一圈，我想出了如何将所有 dd 元素打印到屏幕上，而不是特定的 dd 元素!

谢谢

最佳答案

如果顺序不重要，只需进行一些更改:

...
dl_data = soup.find_all("dd")
for dlitem in dl_data:
    print dlitem.string

结果:

13 September 2015
Starting at £40,130 per annum.
15 December 2015
Starting at £22,460 per annum.
10 January 2014
Starting at £18,160 per annum.

对于您的最新请求:

for item in list(zip(soup.find_all("dd")[0::3],soup.find_all("dd")[2::3])):
    date, salary = item
    print ', '.join([date.string, salary.string])

输出:

13 September 2015, 100
14 September 2015, 200

关于python - 使用 BeautifulSoup 提取特定的 dl 和 dd 列表元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32475700/

24

4

0

文章推荐：带附件的 PHP 邮件 - 额外文件 : part 1. 4

文章推荐： node.js - 如何将信息从 NodeJS 服务器发送到客户端？

文章推荐： php - (PHP) 如何将 crypt() 与 CRYPT_BLOWFISH 一起使用？

html - dl list - 我可以让 "dt"高于 "dl"但也可以让每个 dt/dl 组内联
所以我有一个类似这样的 dl 列表: .title { display: inline-block; padding-bottom: 20px; } dd { -moz-margin-st
youtube-dl - 如何在 youtube-dl 上使用代理？
我想使用代理并运行它youtube-dl --proxy socks5://127.0.0.1:1080 这是下面的错误 Usage: youtube-dl [OPTIONS] URL [URL...
youtube-dl - 我可以使用 youtube-dl 提供直接链接并使用其他方式下载它们吗？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
youtube-dl - youtube-dl 脚本的 --playlist-start 选项不起作用
[Windows 10] 我有一个包含 128 个项目的视频播放列表 URL，我已经从同一个播放列表 URL 下载了 25 个视频。现在我想从 26 索引开始下载剩余的视频，但我无法使用 --paly
youtube-dl - 如何从 1 以外的数字开始 youtube-dl 自动编号？
我正在使用 youtube-dl 从 youtube 下载播放列表。我使用自动编号功能对视频进行编号，这可以通过格式化输出文件的名称来实现，如下 -o "%(autonumber)s-%(title)
css - 如何使水平布局的
标记的
达到
的整个高度？
我正在显示的列表tags 我页面中的标签。我想要当标签的内容足够长以超出的高度时不换行. 什么 css 可以防止这种情况发生？最佳答案我会使用 margin-left在上等于的宽
youtube-dl - 如何使用 youtube-dl 将字幕刻录/硬编码到下载的 youtube 视频
此命令下载视频并将自动生成的 youtube 字幕嵌入到文件中 youtube-dl.exe -ci -f "bestvideo[ext=mp4]"+"bestaudio[ext=m4a]" --wr
c++ - 我可以通过链接此 dl 从动态库加载函数，但如果不链接此 dl，我无法在代码中使用 'dlsym' 加载它
我在fedora 116上使用gcc/g++，我的想法是: c program -> load c++ dynamic library A -> load c++ dynamic library B
python - 在将 youtube-dl 用作 python 模块时，如何列出 youtube-dl 中的视频分辨率？
嗯，我可以在终端中使用它直接获取视频格式 - $ youtube-dl -F "some youtube url" 输出: [youtube] Setting language [youtube] P
video - Youtube-dl 库和错误 403 : Forbidden when using generated direct link by youtube-dl from different locations
我的 youtube-dl 库 ( https://rg3.github.io/youtube-dl/ ) 有问题。我使用 youtube-dl 不是通过这个库直接下载视频，而是我首先使用这样的命令生
android - 无法获取 URL https ://dl-ssl. google.com/android/repository/addons_list-1.xml，原因 : Connection to https://dl-ssl. google.com 被拒绝
关闭。这个问题需要details or clarity .它目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 关闭 8 年前。 Improve
java - 无法获取 'https://dl.google.com/dl/android/maven2/com/android/tools/build/gradle/7.0.2/gradle-7.0.2.pom'
我是 Android Studio 的新手，每次我尝试将项目与 gradle 同步时都会收到此错误。例如，我提供了对三个文件的引用。 1)项目级build.gradle文件 plugins {
java - 无法获取 'https://dl.google.com/dl/android/maven2/com/android/tools/build/gradle/4.0.1/gradle-4.0.1.pom'
更新 Gradle 后出现以下问题。我找不到任何解决方案。所以请帮我解决以下问题。提前致谢... (问题 ----- 无法获取“https://dl.google.com/dl/android/mav
android - 无法获取资源 'https://dl.google.com/dl/android/maven2/com/android/tools/build/gradle/3.2.1/gradle-3.2.1.pom'
我最近开始使用 react native，但是根据伊朗人的制裁，gradle 不能构建我的第一个项目，所以我使用了 VPN 和 shecan service但我收到以下错误: 我阅读了 React n
android - 无法获取 'https://dl.google.com/dl/android/maven2/com/google/gms/google-services/4.0.1/google-services-4.0.1.pom'
在Firebase身份验证(助手)中使用将Firebase身份验证添加到您的应用程序时出错。该错误在“同步”标签中显示为: Could not GET 'https://dl.google.com/
android - Gradle 同步失败无法获取 'https://dl.google.com/dl/android/maven2/com/android/tools/build/gradle/3.1.3/gradle-3.1.3.pom'
我无法在 Android Studio 中构建项目，并且收到以下错误。 Gradle 同步失败。无法获取“https://dl.google.com/dl/android/maven2/com/an
youtube-dl 下载位置
我正在尝试将 youtube 视频保存为我的下载文件夹中的 MP3。但是，这最终会将文件保存在与 youtube-dl 相同的目录中。 youtube-dl --extract-audio --aud
youtube-dl - 当连接断开不起作用时重试
我正在使用 youtube-dl用于从 YouTube 下载视频。但是在我的办公室，互联网会每隔 20Mb 断开一次。的下载。 [错误:连接被远程服务器强行关闭]。我必须再次输入 URL 才能继续下
python - 使用批处理文件在Python中嵌入Youtube-DL
好的，我知道要在您使用的python程序中从Youtube-DL获取Mp3文件 from __future__ import unicode_literals import youtube_dl yd
php - 在php脚本中使用Youtube-dl
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic

首页

博学

6Ren·AI

商城

python - 使用 BeautifulSoup 提取特定的 dl 和 dd 列表元素