python - 如何使用 Beautifulsoup4 抓取属性中未指定类或 ID 的 HTML 元素-6ren

python - 如何使用 Beautifulsoup4 抓取属性中未指定类或 ID 的 HTML 元素

转载作者：太空宇宙更新时间：2023-11-04 02:10:26

25

4

我想从页面中抓取单独的内容描述，我可以使用 attribute 中指定的 class 或 id 来完成。但是.. 如果在 html tag 中没有指定 class 或 id 属性，我不知道如何获取元素。

喜欢这个截图:

<div class="cat_box_desc">
    <h3>Status:</h3>
    on-going <br>
    <h3>Genres:</h3>

    <br>
    <h3>Description:</h3>
    <div align="justify">
        <p> Information</p>
        <p>Type: TV</p>
        <p>Episodes: Unknown</p>
        <p>Status: Currently Airing</p>
        <p>Aired: Oct 7, 2013 to ?</p>
        <p>Producers: Sunrise, TV Tokyo, Sotsu Agency</p>
        <p>Genres: Mecha</p>
        <p>Duration: 25 min. per episode</p>
        <p>Synopsis:</p>
        <p>Gundam Build Fighter adalah sebuah pertarungan simulasi Gundam. Unit Gundam dirangkai dari model plastiknya. Tokoh utamanya adalah seorang anak laki-laki yang bernama Iori Sei. Sei memiliki kemampuan merangkai Gundam yang hebat, namun dia tak
            memiliki kemampuan untuk mengendalikan gundam yang ia rangkai saat melakukan Gunpla Battle. Namun satu hari dia bertemu dengan seorang pencuri roti misterius, yang memberinya sebuah batu permata.</p>
    </div><br>
    <div style="padding-left: 560px; padding-bottom:20px;" class="spacebook">
        <div class="fb-like" data-href="http://animeindo.video/category/gundam-build-fighter/" data-width="450" data-layout="box_count" data-show-faces="false" data-send="false"></div>
    </div>
</div>

我可以在 class="cat_box_desc" 中抓取数据，但我会获取里面的所有数据，我不想要它，我想分离数据。

我不知道像上面的截图那样把数据分开有status, genre, description, information 和 H1 和 P 标签中的其他标签，因为上面没有指定 class 或 id。

那么在 Beautifulsoup4 中如何实现呢？

最佳答案

使用 BeautifulSoup 已经是一个非常好的选择，因为它是一个非常灵活的库，具有多种定位元素的方法。

对于 : 分隔的字段，我会将它们解析为字典以便于访问:

import re

from bs4 import BeautifulSoup

data = """
<div class="cat_box_desc">
    <h3>Status:</h3>
    on-going <br>
    <h3>Genres:</h3>

    <br>
    <h3>Description:</h3>
    <div align="justify">
        <p> Information</p>
        <p>Type: TV</p>
        <p>Episodes: Unknown</p>
        <p>Status: Currently Airing</p>
        <p>Aired: Oct 7, 2013 to ?</p>
        <p>Producers: Sunrise, TV Tokyo, Sotsu Agency</p>
        <p>Genres: Mecha</p>
        <p>Duration: 25 min. per episode</p>
        <p>Synopsis:</p>
        <p>Gundam Build Fighter adalah sebuah pertarungan simulasi Gundam. Unit Gundam dirangkai dari model plastiknya. Tokoh utamanya adalah seorang anak laki-laki yang bernama Iori Sei. Sei memiliki kemampuan merangkai Gundam yang hebat, namun dia tak
            memiliki kemampuan untuk mengendalikan gundam yang ia rangkai saat melakukan Gunpla Battle. Namun satu hari dia bertemu dengan seorang pencuri roti misterius, yang memberinya sebuah batu permata.</p>
    </div><br>
    <div style="padding-left: 560px; padding-bottom:20px;" class="spacebook">
        <div class="fb-like" data-href="http://animeindo.video/category/gundam-build-fighter/" data-width="450" data-layout="box_count" data-show-faces="false" data-send="false"></div>
    </div>
</div>"""

soup = BeautifulSoup(data, "html.parser")

# first locate the container with the desired fields
description = soup.find("h3", text="Description:").find_next_sibling()

# get all the ":"-separated fields into a dictionary 
pattern = re.compile(r"\w+:\s.*?")

data = dict(field.split(":") for field in description.find_all(text=pattern))

print(data)

打印:

{'Type': ' TV', 'Episodes': ' Unknown', 'Status': ' Currently Airing', 'Aired': ' Oct 7, 2013 to ?', 'Producers': ' Sunrise, TV Tokyo, Sotsu Agency', 'Genres': ' Mecha', 'Duration': ' 25 min. per episode'}

现在这不会捕获 Synopsis，因为它的值在单独的 p 元素中，但您可以通过以下方式获取它:

data["Synopsis"] = description.find("p", text="Synopsis:").find_next_sibling("p").get_text()

完整的美化输出:

{'Aired': ' Oct 7, 2013 to ?',
 'Duration': ' 25 min. per episode',
 'Episodes': ' Unknown',
 'Genres': ' Mecha',
 'Producers': ' Sunrise, TV Tokyo, Sotsu Agency',
 'Status': ' Currently Airing',
 'Synopsis': 'Gundam Build Fighter adalah sebuah pertarungan simulasi Gundam. '
             'Unit Gundam dirangkai dari model plastiknya. Tokoh utamanya '
             'adalah seorang anak laki-laki yang bernama Iori Sei. Sei '
             'memiliki kemampuan merangkai Gundam yang hebat, namun dia tak\n'
             '            memiliki kemampuan untuk mengendalikan gundam yang '
             'ia rangkai saat melakukan Gunpla Battle. Namun satu hari dia '
             'bertemu dengan seorang pencuri roti misterius, yang memberinya '
             'sebuah batu permata.',
 'Type': ' TV'}

我们在这里使用了一些技术，下面是指向库文档相应部分的文档链接。请务必查阅它以更好地了解这些功能:

关于python - 如何使用 Beautifulsoup4 抓取属性中未指定类或 ID 的 HTML 元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53827240/

25

4

0

文章推荐： node.js - bookshelf.js 不适用于 Passport

文章推荐： html - 在列表项中添加一个段落，打破无序列表中的对齐方式

文章推荐： javascript - Highcharts Node.js 导出服务器 : Connection error

文章推荐： javascript - 如何使用 Gulp 连接 CSS 文件？

javascript - (未)旋转矩形上的点
我找到了 this excellent question and answer它以 x/y(加上 center x/y 和 degrees/radians)开始并计算旋转- 到 x'/y'。这个计算很
.net - 为什么非法跨线程*未*被检测到？
全部: 我已经创建了一个 Windows 窗体和一个按钮。在另一个线程中，我试图更改按钮的文本，但它崩溃了；但是如果我尝试更改按钮的颜色，它肯定会成功。我认为如果您更改任何 Windows 窗体控件属
c - (未)签名短整型 (C)
本网站的另一个问题已证实，C 中没有缩写的字面后缀，并且可以执行以下操作: short Number = (short)1; 但是转换它和不这样做有什么区别: short Number = 1; 您使
SQL:从表中获取最新的(未)订阅操作
我有下表: ID (int) EMAIL (varchar(50)) CAMPAIGNID (int) isSubscribe (bit) isActionByUser (bit) 此表存储了用户对事
javascript - 如何复制手动(未)选中复选框的状态？
也就是说，无需触发Javascript事件即可改变的属性，如何保留我手动选中或取消选中的复选框的状态，然后复制到另一个地方？运行下面的代码片段并选中或取消选中其中的一些，然后点击“复制”: $('#
c++ - 可以在不取消引用的情况下增加指针仍然是段错误或具有其他(未)定义的肮脏吗？
我在网上找到的所有关于递增指针导致段错误的示例都涉及指针的取消引用 - 如果我只想递增它(例如在 for 循环的末尾)并且我不在乎它是否最终进入无效内存，因为我不会再使用它。例如，在这个程序中，每次迭
java - 如何获取用于记录的(未)编码消息
我有一个 Spring MVC REST 服务，它使用 XStream 将消息与 XML 相互转换。有什么方法可以将请求和响应中的 xml(即正文)打印到普通的 log4j 记录器？在 Contr
git - 当我需要其他分支的一些代码时如何为功能创建分支(未 merge 到开发分支中)
做我的任务有一个很大的挑战，那就是做相互依赖的任务我在这张照片中说的。假设我们有两个任务 A 和 B，执行子任务 A1、A2 和 B1、B2，假设任务 B 依赖于 A。要理想地执行任务 B，您应该执
delphi - 如何从库的角度处理 COM(未)初始化？
通过阅读该网站上的几个答案，我了解到 CoInitialize(Ex) should be called by the creator of a thread 。然后，在该线程中运行的任何代码都可以使
java - FirebaseListAdapter 未 populateView 未被调用
这个问题已经困扰我一段时间了。我以前从未真正使用过 ListViews，也没有使用过 FirebaseListAdapters。我想做的就是通过显示 id 和用户位置来启动列表的基础，但由于某种原因，
java - 检查(未)检查异常 (Java)
我很难解释这两个(看似简单)句子的含义: “受检异常由编译器在编译时检查” 这是什么意思？编译器检查是否捕获了所有已检查的异常(在代码中抛出)？ “未经检查的异常在运行时检查，而不是编译时” 这句话中
python - 如果在值中*未*找到特定的迭代子字符串，如何返回值？
我有一个包含排除子字符串的文本文件，我想迭代该文件以检查并返回不带排除子字符串的输入项。这里我使用 python 2.4，因此下面的代码可以实现此目的，因为 with open 和 any 不起作用
java - 对于(未)验证的请求绕过 @Cacheable
Spring 的缓存框架能否了解请求上下文的身份验证状态，或者更容易推出自己的缓存解决方案？最佳答案尽管我发现这个用例 super 奇怪，但您可以为几乎任何与 SpEL 配合使用的内容设置缓存条件
c++ - 指针/整数算术(未)定义的行为
我有以下函数模板: template HeldAs* duplicate(MostDerived *original, HeldAs *held) { // error checking omi
android - 如果您的应用程序具有设备管理员/设备所有者权限(未 Root )，如何杀死另一个应用程序
如果我的应用程序具有设备管理员/设备所有者权限(未获得 root 权限)，我如何才能从我的应用程序中终止(或阻止启动)另一个应用程序？最佳答案设备所有者可以阻止应用程序: DevicePolicy
tridion - 组件中的 XSLT 被(未)编码
非常简单的问题，但我似乎无法让它正常工作。我有一个组件，其中有一些 XSLT(用于导航)。它通过 XSLT TBB 使用 XSLT Mediator 发布。发布后
jquery - Droppable 创建(未)嵌套对象 - 但可拖动的位置发生变化
我正在将一个对象拖动到一个可拖放的对象内，该对象也是可拖动的。放置对象后，它会嵌套在可放置对象内。同样，如果我将对象拖到可放置的外部，它就不再嵌套。但是，如果我经常拖入和拖出可放置对象，则可拖动对象
jquery - 如何检测 Angular 中是否*未*单击指令元素
我正在尝试为按钮和弹出窗口等多个指令实现“取消选择”功能。也就是说，我希望当用户单击不属于指令模板一部分的元素时触发我的函数。目前，我正在使用以下 JQuery 代码: $('body').click
javascript - 加载 CSS 未 100% 工作
我从 this question 得到了下面的代码，该脚本用于在 Google tasks 上更改 iframe[src="about:blank"] 内的 CSS使用 Chrome 扩展 Tempe
java - 未 stub 调用的 native 类型的返回值
我有一些 @Mock 对象，但没有指定在该对象上调用方法的返回值。该方法返回 int (不是 Integer)。我很惊讶地发现 Mockito 没有抛出 NPE 并返回 0。这是预期的行为吗？例如:

首页

博学

6Ren·AI

商城

python - 如何使用 Beautifulsoup4 抓取属性中未指定类或 ID 的 HTML 元素