gpt4 book ai didi

ruby - 使用 Nokogiri 解析包含从 Delicious.com 导出的链接的文件的最佳方法?

转载 作者:数据小太阳 更新时间:2023-10-29 08:34:36 25 4
gpt4 key购买 nike

我想解析一个包含从 Delicious 导出的链接的 html 文件。我正在使用 Nokogiri 进行解析。该文件具有以下结构:

<DT>
<A HREF="http://mezzoblue.com/archives/2009/01/27/sprite_optim/"
ADD_DATE="1233132422"
PRIVATE="0"
TAGS="irw_20">mezzoblue § Sprite Optimization</A>
<DT>
<A HREF="http://datamining.typepad.com/data_mining/2008/11/minority-report-interface.html"
ADD_DATE="1226827542"
PRIVATE="0"
TAGS="irw_20">Minority Report Interface</A>
<DT>
<A HREF="http://www.windowshop.com/"
ADD_DATE="1225267658"
PRIVATE="0"
TAGS="irw_20">Amazon Windowshop Beta</A>
<DD>Window shopping from Amazon

如您所见,链接信息在 DT 标签中,一些链接在 DD 标签中有注释。

我执行以下操作来获取链接信息:

doc.xpath('//dt//a').each do |node|
title = node.text
url = node['href']
tags = node['tags']
puts "#{title}, #{url}, #{tags}"
end

我的问题是当存在 dd 标签时如何获取链接信息和评论?

最佳答案

My question is how do I get the link information AND the comment when a dd tag is present?

使用:

//DT/a | //DT[a]/following-sibling::*[1][self::DD]

这将选择所有具有 DT 父级的 a 元素和所有紧随 的兄弟元素的 DD 元素具有 a 子元素的 DT 元素。

注意:强烈建议不要使用//,因为它通常会导致开发人员在使用时效率低下和出现异常。

只要知道 XML 文档的结构,就避免使用 // 缩写

关于ruby - 使用 Nokogiri 解析包含从 Delicious.com 导出的链接的文件的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4477369/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com