gpt4 book ai didi

python - 如何从隔离表中
标签的文本节点中提取文本?

转载 作者:太空宇宙 更新时间:2023-11-03 19:43:13 25 4
gpt4 key购买 nike

enter image description here

我在同一行打印表格数据时遇到问题。当然,我可以认同 css_selector("td") ,但是打印出来的是:姓名地址市,州电话在同一列而我正在尝试创建:姓名、地址、城市/州、电话位于同一行

HTML:(见附图)

这似乎是一个愚蠢的问题,值得挂起......但我已经被困了很长一段时间,并且无法隔离 <br>标签。

代码:

for x in link:
driver.get(x)
try:
i = 0
while 0 < 20:
name = driver.find_elements_by_xpath("/html/body/div[2]/div/div[1]/div/div/table/tbody/tr/td[1]/table/tbody/tr['"+str(i)+"']/td/strong")
if name[i].is_displayed():
print(name[i].text)

i = i + 1
else:
i = i + 1
except(NoSuchElementException,JavascriptException, IndexError):
continue

我以这种方式识别它,试图简单地返回正在进行的 sibling 的文本......再次无济于事。 driver.find_elements_by_css_selector("td")还返回整个表数据...但有它的中断

最佳答案

<br>添加新行 \n<td>的文本,您将其拆分或删除

tds = driver.find_elements_by_css_selector("td")
for td in tds:
text = td.text.split('\n')
print(text) # list: ['text1', 'text2', 'text3', 'text4']

text = td.text.replace('\n', ' ')
print(text) # str: 'textr text2 text3 text4'

关于python - 如何从隔离表中 <br> 标签的文本节点中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60311120/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com