python-3.x - 从 Div 标签中提取文本数据，而不是从子 H3 标签中提取文本数据-6ren

python-3.x - 从 Div 标签中提取文本数据，而不是从子 H3 标签中提取文本数据

转载作者：行者123 更新时间：2023-12-05 00:11:08

27

4

我有一个 HTML 片段，我需要使用 BeautifuSoup 获取数据:

<!doctype html>
<html lang="en">
    <body>
        <div class="sidebar-box">
            <h3><i class="fa fa-users"></i> Management Team</h3>
                        Chairman, Director
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-male"></i> Teacher</h3>
                        John Doe
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-mortar-board"></i> Awards </h3>
                        National Top Quality Educational Development
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-building"></i> School Type</h3>
                        Secondary
        </div>
    </body>
</html>

我需要获取 .text第二个的值 div来自顶部的“John Doe”，但不是 .text h3 内的值标签在那 div .
我的挑战是，目前我得到了这个代码片段中的两个文本值:

# Python 3.7, BeautifulSoup 4.7
# html variable is equal to the above HTML snippet
from bs4 import BeautifulSoup
soup4 = BeautifulSoup(html, "html.parser")
# Get School Head Teacher
school_head_teacher = soup4.find_all('div', {'class':'sidebar-box'})
school_head_teacher = school_head_teacher[1].text.strip()
print(school_head_teacher)

这输出:

Teacher
                        John Doe

但是，我只需要 John Doe 值。

最佳答案

我提供了2个解决方案。第一个不是最优雅的解决方案。但是很快就从我的头顶上下来，你可以在“老师”之后再次将其拆分并连接在一起

选项 1:

html = '''
!doctype html>
<html lang="en">
    <body>
        <div class="sidebar-box">
            <h3><i class="fa fa-users"></i> Management Team</h3>
                        Chairman, Director
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-male"></i> Teacher</h3>
                        John Doe
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-mortar-board"></i> Awards </h3>
                        National Top Quality Educational Development
        </div>
        <div class="sidebar-box">
            <h3><i class="fa fa-building"></i> School Type</h3>
                        Secondary
        </div>
    </body>
</html>'''



from bs4 import BeautifulSoup
soup4 = BeautifulSoup(html, "html.parser")
# Get School Head Teacher
school_head_teacher = soup4.find_all('div', {'class':'sidebar-box'})
school_head_teacher = school_head_teacher[1].text.strip()

school_head_teacher = school_head_teacher.split()[1:]
school_head_teacher = ' '.join(school_head_teacher)

print(school_head_teacher)

输出:

print(school_head_teacher)
John Doe

选项 2:

这个我觉得好一点。您找到带有 Teacher 的标签.然后你得到父标签。然后因为你想要第二部分，所以你使用 .next_sibling和剥离它。

soup4(text=re.compile('Teacher'))[0].parent.next_sibling.strip()

我把它放在一个 for 循环中，以防有多个老师。但是您可以替换顶部代码而不是 for环形

from bs4 import BeautifulSoup
import re

soup4 = BeautifulSoup(html, "html.parser")
# Get School Head Teacher
for elem in soup4(text=re.compile('Teacher')):
    print (elem.parent.next_sibling.strip())

关于python-3.x - 从 Div 标签中提取文本数据，而不是从子 H3 标签中提取文本数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54707259/

27

4

0

文章推荐： Haskell - 过滤器类型类

文章推荐： firebase - Firestore.getInstance() : how to use?

c++ - 无法打开源文件 "afxwin.h"/"afxext.h"/"afxdisp.h"/"afxdtctl.h"/"afxcmn.h"/afxdisp.h 等
我尝试在安装了多类型 MFC 库的 visual studio 2015 MFC 上运行以前编写的 MFC c++ 代码。但是，我这里仍然有 12 个关于缺少函数的错误: IntelliSense:
c++ - OOP C++ - 错误，因为 A.h 包含 B.h，B.h 又包含 A.h
我正在学习 OOP 并且有疑问。假设我有一个包含 ClassB.h 的文件 ClassA.h，并且在某些时候我的 ClassB.h 需要包含 ClassA .h。这会产生一个错误，我想我明白为什么会
cuda - cuda.h、cuda_runtime.h、cuda_runtime_api.h 之间的区别
我开始使用 CUDA 进行编程，在一些示例中我找到了包含文件 cuda.h、cuda_runtime.h 和 cuda_runtime_api.h 包含在代码中。有人可以向我解释一下这些文件之间的区别
python - 解决 python 正则表达式错误^H^H^H...咳咳...需要错误功能
我有一些生成正则表达式的代码。那么下面的表达式实际上是: ^(?:\s*((exclude|include|hide|show|protect|risk|dir-merge|merge)),\s*((
java - 在 Java 中使用 "h = Math.min(h, h)"有什么合乎逻辑的理由吗？
我一直在查看一些源代码，以更好地了解我们使用的这款游戏的核心，并编写更可靠、更快速的插件。然后我发现了这段奇怪的代码...... public void setMaxH(double amount)
c++ - 为什么我需要在以下示例中的 block_cache.h 之前包含 block_cache_key.h 和 block.h？
通常我们会使用标准类型作为 std::unordered_map 的键和值.但现在我需要自定义我自己的键和值类。键类在block_cache_key.h 中定义如下: #ifndef BLOCK_C
c++ - 为什么头文件 Head1.h 不能包含包含 Head1.h 的头文件 Head2.h？
例如，我想要两个头文件，它们可以依赖于另一个头文件中的函数。 //Header1.h file #include Header2.h void h1(){ //... func1(); } v
c - 《Algorithms in C part 1-4》p172 shellSort中的for(h=1;h<=(r-1)/9;h=h*3+1)循环是什么意思？
我正在研究来自 Sedgewick 的 Shell 排序 Algorithms in C part 1-4在第 172 页。我使用 size (数组的长度)，而不是 l和 r (开始和结束)；所以我
ubuntu - tk.h 在/usr/include 中查找 tcl.h，但 tcl.h 在/usr/include/tcl 中。我没有编写 tk.h 权限来修复代码
我在 macOS BigSur 上通过 VMWare 使用 Ubuntu 20.04.2 LTS。我安装了最新版本的 tcl、tcl-dev、tk 和 tk-dev - 版本 8.6。我想编译 Arc
opengl - OpenGL 文件 glew.h 和 gl.h/glu.h 之间的区别
我用我的 glu 和 gl 头文件构建了一个 OpenGL 程序，默认包含在 windows 7 专业版中。现在，我买了一本描述 OpenGL 游戏开发的书。这本书的作者说，我必须在我的项目中包含 g
elasticsearch - elasticsearch将 “H&R Blocks”标记为 “H”， “R”， “H&R”， “Blocks”
我想在 token 中保留特殊字符，同时仍对特殊字符进行 token 化。说我有话 "H&R Blocks" 我想将其标记为 "H", "R", "H&R", "Blocks" 我读了http://w
raku - Perl 6 : trans(%h) vs trans(%h. 键 => %h.values)
关于 hash 作为 trans 参数的另一个问题。在下面的代码中，简单地使用 hash 会给出不正确的结果，但是将其替换为 keys 和 values 会使其正确。怎么了？ my @alph1 =
c - Windows 的库 "X11/Xlib.h"、 "X11/Xutil.h"、 "unistd.h"
我已经编写了一个 C 程序，它获取屏幕像素的 RGB 值 (0-255)，并知道其位置 (x,y)。它可以在 Linux 中运行，但是当我尝试在 Visual Studio (Windows) 中编译
opengl - OpenGL 文件 glew.h 和 gl.h/glu.h 之间的区别
我已经使用 Windows 7 专业版中默认包含的 glu 和 gl 头文件构建了一个 OpenGL 程序。现在，我买了一本描述 OpenGL 游戏开发的书。这本书的作者说，我必须将glew head
c++ - G++ Linux 终端中的 ;; 问题
#include using namespace std; #include //#include int main() { initscr();
java - 显示与包含 h :form using a single h:message or h:messages? 相关的所有消息
h:messages h:form 内的组件还显示与外部组件相关的消息。如何限制它只显示与包含 h:form 内的组件相关的消息？我不喜欢用单独的h:message来使我的代码膨胀。每个输入组件的
c++ - 如何在 C++ 文件中包含 list.h、queue.h 和 vector.h 等头文件？
我下载了示例代码和 cpp 文件，其中包含 list.h、queue.h 和 vector.h 等头文件，如果我尝试构建，我会收到“ fatal error :没有这样的文件或目录编译终止”我想我应该
c++ - Windows Mobile 项目的 winnt.h、winbase.h 和 excpt.h 编译错误
我有一个编译成功的桌面项目，但是在我向项目添加新配置以支持 Windows Mobile 平台后，我收到以下错误: error C2146: syntax error : missing ';' be
c++ - zlib.h :34:19: fatal error: zconf. h:没有这样的文件或目录#include "zconf.h"
有很多关于这个错误的帖子，但我无法解决它，我希望你能拿出解决方案。我在 Ubuntu 机器上。 ~/graphmap2$ 在这个文件夹中，我下载了 zlib。可以看图经过一番谷歌搜索后，我还注意到没
c++ - 我可以在 Visual C++ 中使用 graph.h、dos.h 和 bios.h 吗？
是否可以在 Visual C++ 中使用以下 header : 图.h dos.h bios.h 最佳答案据我所知，无法在 Visual C++ 中使用它，与此同时，我希望您关注 Open Wat

首页

博学

6Ren·AI

商城

python-3.x - 从 Div 标签中提取文本数据，而不是从子 H3 标签中提取文本数据