gpt4 book ai didi

ruby-on-rails - Nokogiri:解析不规则 "<"

转载 作者:数据小太阳 更新时间:2023-10-29 02:23:01 24 4
gpt4 key购买 nike

我正在尝试使用 nokogiri 来解析以下片段

<tr>
<th>Total Weight</th>
<td>< 1 g</td>
<td style="text-align: right">0 %</td>

</tr>
<tr><td class="skinny_black_bar" colspan="3"></td></tr>

但是,我认为“< 1 g”中的“<”符号会导致 Nokogiri 问题。有谁知道任何解决方法?有什么办法可以逃脱“<”标志吗?或者我可以调用一个函数来获取纯 html 段?

最佳答案

作为快速修复,我想出了这个方法,使用正则表达式来识别未闭合的标签:

def fix_irregular_html(html)
regexp = /<([^<>]*)(<|$)/

#we need to do this multiple time as regex are overlapping
while (fixed_html = html.gsub(regexp, "&lt;\\1\\2")) && fixed_html != html
html = fixed_html
end

fixed_html
end

在此处查看包括测试在内的完整代码: https://gist.github.com/796571

它对我来说效果很好,我感谢任何反馈和改进

关于ruby-on-rails - Nokogiri:解析不规则 "<",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3268387/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com