python - 有没有办法找到类名并获取父标签的整个文本？-6ren

python - 有没有办法找到类名并获取父标签的整个文本？

转载作者：行者123 更新时间：2023-11-28 18:57:49

26

4

我有很多 html 文件，我必须获取文件的完整标题。标题标签位置不同:class="c6", class="c7"

我试过BeautifulSoup

for head_c6 in soup.find_all('span', attrs={'class': 'c6'}):
        print(head_c6.get_text())
for head_c7 in soup.find_all('span', attrs={'class': 'c7'}):
        print(head_c7.get_text())

但结果:

2017 年第三季度美国运通联合财报电话 session - 最终长度:

2016 年第 2 季度 Akamai Technologies Inc 电话 session - 最终 yield

这里是不同文件的样子:

文件 1

<div class="c4">
<p class="c5">
<span class="c6">
      Q3 2017 American Express Co Earnings Call - Final
     </span>
</p>
</div>
<div class="c4">
<p class="c5">
<span class="c7">
      LENGTH:
     </span>
<span class="c2">
      11051 words
     </span>
</p>
</div>

文件 2

<div class="c4">
<p class="c5">
<span class="c6">
      Q2 2018 Akamai Technologies Inc
     </span>
<span class="c7">
      Earnings
     </span>
<span class="c6">
      Call - Final
     </span>
</p>
</div>

文件 3

<div class="c4">
    <p class="c5">
     <span class="c6">
      Q4 2018
     </span>
     <span class="c7">
      Facebook
     </span>
     <span class="c6">
      Inc
     </span>
     <span class="c7">
      Earnings
     </span>
     <span class="c6">
      Call - Final
     </span>
    </p>

我想要的是获取标题的全文:

2017 年第三季度美国运通联合财报电话 session - 最终

2018 年第 2 季度 Akamai Technologies Inc 财报电话 session - 最终

Facebook Inc 2018 年第 4 季度财报电话 session - 最终

最佳答案

使用正则表达式re 我已经更新了最后一个文件 html。您可以对其余文件执行相同的操作

from bs4 import BeautifulSoup
import re
data='''<div class="c4">
    <p class="c5">
     <span class="c6">
      Q4 2018
     </span>
     <span class="c7">
      Facebook
     </span>
     <span class="c6">
      Inc
     </span>
     <span class="c7">
      Earnings
     </span>
     <span class="c6">
      Call - Final
     </span>
    </p>'''

soup=BeautifulSoup(data,'html.parser')

items=[item.text.strip() for item in soup.find_all('span', class_=re.compile("c"))]
stritem=' '.join(items)
print(stritem.replace('\n',''))

输出:

 Q4 2018 Facebook Inc Earnings Call - Final

您也可以使用以下方式。

items=[item.text.strip() for item in soup.find_all('span', class_=re.compile("c6|c7"))]
stritem=' '.join(items)
print(stritem.replace('\n',''))

或尝试获取父标记文本。

from bs4 import BeautifulSoup
import re
data='''<div class="c4">
    <p class="c5">
     <span class="c6">
      Q4 2018
     </span>
     <span class="c7">
      Facebook
     </span>
     <span class="c6">
      Inc
     </span>
     <span class="c7">
      Earnings
     </span>
     <span class="c6">
      Call - Final
     </span>
    </p>'''

soup=BeautifulSoup(data,'html.parser')
childtag=soup.find('span', class_=re.compile("c6|c7"))
parenttag=childtag.parent
print(parenttag.text.replace('\n',''))

关于python - 有没有办法找到类名并获取父标签的整个文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56127598/

26

4

0

文章推荐： IOS 初始 View Controller 基于从数据库检索的条件

文章推荐： javascript - JSON 的 Ajax 调用错误

文章推荐： ios - 格式化带有印度后缀的货币 IOS

文章推荐： python - 明确关闭文件重要吗？

javascript - jQuery 导航 - 更改输入的父-父-父-父-兄弟的输入
我目前正在寻找一些关于 jQuery 的建议，因为我认为我做错了，即使我得到了我想要的结果。我想在更改时将输入的值更改为最接近的具有 .milestone 类的输入的值。我想要更改的输入是保持输入，
javascript - 高级 javascript 继承失败 - 父 <- 父 <- 子
我已经阅读有关绑定(bind)、调用、申请的文章近一周了，对我来说仍然很复杂。我想我写的这个 jsfiddle 需要它们。然而，我没能做到，因为我仍然很困惑。我尽力写了一些我上周从遇到这个问题的开发
java - 父 POM/NOOP 父 POM 中的 "Child-only configuration"
我有一个项目生成代码。生成时间真的很长，所以我把它分成了多个项目，每个项目产生了整体的 20%。原始 POM 成为“父 POM”，子项依赖于它，仅包含一个单独的 Artifact ID 和一两个更改的
c# - asp.net mvc 父 subview ，父 View 更新 subview
我正在使用局部 View 来创建父 subview 。我最理想的是父 View 上的提交按钮，用于保存子值。我有以下模型。 public class Course { public int
rust - 父<->子关系所有权问题
我刚刚开始学习Rust，并且在理解所有权如何在我的案例中遇到一些麻烦: use std::ops::IndexMut; // =====================================
Javascript:父/子对象实例化的顺序
我是 JavaScript 新手，想了解更多有关它实例化父/子对象的顺序的信息。更具体地说，我想从编译器/浏览器的 Angular 理解以下代码片段。 var parent = { child:
Azure 父/子差异磁盘
我正在测试 Azure IaaS，并遇到了一个非常基本的问题。我有一个父 VHD 和子 VHD，已使用 csupload 将其作为页面 blob 上传，并且门户中显示图像和磁盘。然后我尝试将 pare
ios - 父/子托管对象上下文究竟是如何工作的？
我的应用程序会定期为我坚持使用的对象请求更新 Core Data到网络服务。然后我需要更新我在主要上下文中拥有的对象(默认情况下 AppDelegate 中提供的对象)。编辑对象的不是用户，所以我需要
jQuery 父
texT text text text text text 如何直接获取来自.menu ？里面的 child 不应该采取。
jquery 父、子的简写
我一直需要影响与其他元素相关的元素，但我的方法有点业余! 即到 // matched item where script is called from LINK 我使用； $(thi
MySQL - 父+子类别总数
我有两个表: 父子“类别”: id name parent_id 1 Food NULL 2 Pizza 1 3 Pasta
Python 父/子类方法调用
Linux 上的 Python 2.7.6。我正在使用从父级继承的测试类。父类保存了许多子类共有的许多字段，我需要调用父类的 setUp 方法来初始化这些字段。调用 ParentClass.setU
mySQL 父、子模型和默认值
我有一个处理图像、相册和相册类别的数据库。一个专辑可以有多个专辑(子专辑)，并且只有 1 级深度。一张专辑仅属于一个专辑类别。在这里做了一些研究，我相信最合适的数据库模型是这个 album_ca
python - 父/子数据库包含循环引用
我有一个关键字表，其中每个关键字都分配有一个 ID，并且是唯一的。我有第二个表，将父关键字的 ID 链接到子关键字的 ID。一个关键字最多可以有大约 800 个 child 或根本没有。 child
css - 父>子CSS选择器
我经常使用这个 CSS 选择器 parent>child。我的设计在 Mozilla 和 Opera 中看起来不错。但在 IE 中，它很糟糕。我知道 > 在 IE 中无法识别，但在 IE 中有什么替
c++ - 父/子类所有权语义
我一直在用一个父对象构建一个系统，它在其中创建各种子对象，每个子对象都需要一个主对象才能运行。现在，到目前为止，我一直在创建 shared_ptr和 Child* ，所以当 Parent 和所有 C
java - 父/子序列化本地类不兼容异常
我从以下两个类中收到序列化兼容性错误。只有父类CommericalCustomer 实现了序列化。当具有如下所示的父/子关系时，使用可序列化接口(interface)的正确方法是什么？ public
C 父/子退出变量
我正在开发一个程序并学习父/子进程。目前我的子进程是 exit(variable); 在我的 main() 中我有: signal(SIGCHLD, chldHandler); 在我的 main()
java - 父/子方法覆盖
考虑以下两个具体类: public class A { protected void foo() { System.out.println("A foo"); bar
c# - 父/子泛型关系
所以，我正在尝试建立这样的父/子类关系: class ParentClass where C : ChildClass { public void AddChild(C child)

首页

博学

6Ren·AI

商城

python - 有没有办法找到类名并获取父标签的整个文本？