gpt4 book ai didi

ruby - Nokogiri/Mechanize xpath 定位器在存在杂散开始标记时中断

转载 作者:太空宇宙 更新时间:2023-11-03 18:24:53 24 4
gpt4 key购买 nike

我使用 Mechanize 加载了一个页面:

url = 'http://www.blah.com'
agent = Mechanize.new
page = agent.get(url)

并尝试使用 XPath 选择器访问元素:

found = page.at('/html/body/table')

它返回 nil因为我无法控制的 HTML 在不应该的地方有一个开始标记:

<html>
<body>
<tr>
<table>
. . .

当浏览器在现实生活中呈现页面时,Firefox 称之为“杂散开始标记”,它会被忽略(并且 Firefox 给我忽略它的 xpath),但 Nokogiri 无法看到超过额外的 <tr> 的任何内容。 .

有没有办法清理这样的悬挂标签的HTML?

最佳答案

在您的示例中,它将是:

page.at '/html/body/tr/table'

但也许这样做更有意义:

page.at 'table'

关于ruby - Nokogiri/Mechanize xpath 定位器在存在杂散开始标记时中断,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12792349/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com