gpt4 book ai didi

Python XPath 抓取显示列表没有文本属性

转载 作者:太空宇宙 更新时间:2023-11-03 18:12:43 25 4
gpt4 key购买 nike

我正在使用代码来抓取 PDF 以生成相关词典。当我单独访问每个文本 block 时,我的代码有效,即

x = scraperwiki.pdftoxml(u.read())
r = lxml.etree.fromstring(x)
s = r.xpath('//page[@number="142"]/text[@left = "134"]')
print s[8].text

print s[0],s[1].. 似乎都有效,但是当我尝试同样的操作时

x = scraperwiki.pdftoxml(u.read())
r = lxml.etree.fromstring(x)
s = r.xpath('//page[@number="142"]/text[@left = "134"]')
print s[0:8].text

我收到此错误:AttributeError:“列表”对象没有属性“文本”

谁能告诉我出了什么问题吗?

最佳答案

text 是每个元素的属性,而不是列表的属性。

迭代每个元素。

x = scraperwiki.pdftoxml(u.read())
r = lxml.etree.fromstring(x)
s = r.xpath('//page[@number="142"]/text[@left = "134"]')
for elem in s[:8]:
print elem.text

或使用列表理解:

x = scraperwiki.pdftoxml(u.read())
r = lxml.etree.fromstring(x)
s = r.xpath('//page[@number="142"]/text[@left = "134"]')
print [elem.text for elem in s[:8]]

关于Python XPath 抓取显示列表没有文本属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25583190/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com