python - 从 html 中检索尾部文本-6ren

python - 从 html 中检索尾部文本

转载作者：行者123 更新时间：2023-12-02 06:20:46

27

4

使用 lxml 的 Python 2.7

我有一些令人讨厌的 html，如下所示:

<td>
<b>"John"
</b>
<br>
"123 Main st.
"
<br>
"New York
"
<b>
"Sally"
</b>
<br>
"101 California St.
"
<br>
"San Francisco
"
</td>

所以基本上它是一个包含大量内容的单一 td。我正在尝试编译姓名及其地址的列表或字典。

到目前为止，我所做的是使用tree.xpath('//td/b')获取带有名称的节点列表。因此，假设我当前位于 John 的 b 节点上。

我正在尝试获取当前节点之后但下一个 b 节点(Sally)之前的所有内容的 whatever.xpath('string()') 。我已经尝试了一堆不同的 xpath 查询，但似乎无法得到正确的结果。特别是，每当我在没有 [] 括号的表达式中使用 and 运算符时，它都会返回一个 bool 值，而不是满足条件的所有节点的列表。有人可以帮忙吗？

最佳答案

这应该有效:

from lxml import etree

p = etree.HTMLParser()
html = open(r'./test.html','r')
data = html.read()
tree = etree.fromstring(data, p)

my_dict = {}

for b in tree.iter('b'):
    br = b.getnext().tail.replace('\n', '')
    my_dict[b.text.replace('\n', '')] = br

print my_dict

此代码打印:

{'"John"': '"123 Main st."', '"Sally"': '"101 California St."'}

(您可能需要去掉引号!)

您可以使用 lxml 的解析器之一来轻松导航 HTML，而不是使用 xpath。解析器会将 HTML 文档转换为“etree”，您可以使用提供的方法对其进行导航。 lxml 模块提供了一个名为 iter() 的方法它允许您传入标签名称并接收树中具有该名称的所有元素。在您的情况下，如果您使用它来获取所有 <b>元素，然后您可以手动导航到 <br>元素并检索其尾部文本，其中包含您需要的信息。您可以在 lxml.etree tutorial. 的“元素包含文本”标题中找到相关信息。

关于python - 从 html 中检索尾部文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60231484/

27

4

0

文章推荐： wysiwyg - 谷歌关闭编辑器/所见即所得

文章推荐： python - 克鲁斯卡复杂度

文章推荐： arrays - vb6 数组，上限为 -1

r - 返回的最大和最小日期不同于排序列表的头部、尾部
我发现了一些令人费解的行为。给定一个包含 50 个日期的列表: structure(c("15513", "12830", "16503", "-3628", "15833", "13553", "4
c# - 如何获取列表中的最后一个元素(尾部)？
我正在尝试创建单链表，但我不知道我做错了什么。在插入元素 5、6、7、2、3、4 后，尾部应该是 4，但我得到的是 3，我不明白为什么。这是我的代码: public void Insert(int
c - 意外的访问冲突读取(尾部)
这是我的尾部代码(前 10 行): #include #include #include typedef char storage_datatype; #define MAXLINESIZE 1
windows - Windows 尾部
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
java - 从列表中删除范围(尾部)
是否有一种有效的方法可以从 List 中删除 X 元素的范围(例如尾部)，例如LinkedList 在 Java 中？显然可以一个一个地删除最后一个元素，这应该会导致 O(X) 级别的性能。至少对于
删除PHP数组中头部、尾部、任意元素的实现代码
在之前的一篇文章我们介绍了《如何向php数组中头部和尾部添加元素》既然有添加元素，那么就有删除元素，今天这篇文章详细介绍如何删除数组中的头部元素和尾部元素，还有任意数组元素。删除末尾元素：arr
c - 双向链表 - 合并排序后更新列表->尾部
在双向链表的实现中，我使用了典型的结构: struct node { void *data; struct node *prev; struct node *next; };
c# - 尾部。 ILAsm中的前缀–使用示例吗？
ECMA-335，III.2.4指定可以在递归函数中使用的tail.前缀。但是，我在C＃和F＃代码中都找不到它的用法。有使用in的示例吗？最佳答案您不会在当前的MS C＃编译器生成的任何代码中找到
以相反顺序显示行的 Windows 日志文件查看器(尾部)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
linux - 尾部-f + grep？
这个问题在这里已经有了答案: How to 'grep' a continuous stream? (13 个答案) 关闭 8 年前。 Tail 有以下选项: -f The -f opti
bash - 根据 Bash 中的特定字符修剪字符串(尾部)
我试图弄清楚一旦我击中某个字符，如何从尾部修剪 Bash 中的字符串。示例:如果我的字符串是这个(或任何链接):https://www.cnpp.usda.gov/Innovations/DataS
bash - 根据 Bash 中的特定字符修剪字符串(尾部)
我试图弄清楚一旦我击中某个字符，如何从尾部修剪 Bash 中的字符串。示例:如果我的字符串是这个(或任何链接):https://www.cnpp.usda.gov/Innovations/DataS
shell - 尾部 | grep -q 总是返回真
当我执行这段代码时，循环总是在第一次结束(即使 auth.log 的最后两行不包含“exit”)，这意味着 $c总是得到一些字符串: while true; do c=$(tail -2 /v
c++ - 单向链表添加节点(支持前端、尾部、中间添加)
我正在尝试编写一个“添加”函数，该函数接受节点中保存的值(表示为“n”)，以及节点要添加到链表中的位置(表示为“pos”)。我看到代码中有 3 个单独的添加函数 - addAtBeginning、a
C 字符串操作(切割一些特殊的 char* 尾部)
为什么我不能得到“cd fjadf”？程序总是向我显示 Bus error: 10... 我想用这个super_cut_tail()函数来截断用户指定的///fjdakf。但是为什么这个功能不能实现
mysql - 通过子字符串的最长公共(public)尾部(右侧部分)在表中查找字符串的行
有一个简化的表 mytable，其中列 ('id', 'mycolumn') 为 int 和 varchar(255 )分别。在 mycolumn 中查找当前字符串具有最长公共(public)右侧部
python - 读取文件的最后 n 行(尾部)而不逐行读取？
这个问题已经有答案了: 已关闭13 年前。 Possible Duplicate: Get last n lines of a file with Python, similar to tail 你好
go - 如何在 Go 服务器中设置 HTTP 尾部？
我想通过对写出的响应主体进行哈希处理来计算响应的实体标签。当我计算实体标签时，将实体标签添加到响应 header 已经太晚了。我想将实体标签添加到预告片中。我看到 net/http 包支持编写预告片，
linux - 尾部 : cannot open ‘+2’ for reading: No such file or directory
我正在尝试通过 script.sh 从第 2 行到第 5 行打印文件 (myfile) 的内容。脚本无法从位置 2 打开文件。并且内容从第 1 行打印到第 4 行。以下是文件内容、命令和命令的输出。
linux - 如何通过 awk 和 grep 输出 "filter"尾部？
在一个特殊的控制台上，我喜欢从/var/log/syslog 中过滤一些信息。这并不是很棘手: tail -f /var/log/syslog | awk '{print $2,$1,$9,$3,"\

首页

博学

6Ren·AI

商城

python - 从 html 中检索尾部文本