gpt4 book ai didi

python - 通过 XPath 获取文本,忽略标记

转载 作者:行者123 更新时间:2023-11-28 01:18:59 28 4
gpt4 key购买 nike

我必须在 HTML 表格中检索文本,在单元格中,文本有时位于 <div> 中有时不是。

我怎样才能制作一个 div在可选的 XPath 中?

我的实际代码:

stuff = tree.xpath("/html/body/table/tbody/tr/td[5]/div/text()")

想要的伪代码:

stuff = tree.xpath("/html/body/table/tbody/tr/td[5]/div or nothing/text()")

最佳答案

你想要 string value td[5] 元素。使用 string() :

stuff = tree.xpath("string(/html/body/table/tbody/tr/td[5])")

这将在 td[5] 下返回没有标记的文本。

也可以通过 normalize-space()间接获取元素的字符串值 作为suggested by splash58 in the comments ,如果您还希望在两端修剪空白并在内部减少空白。

关于python - 通过 XPath 获取文本,忽略标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34535209/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com