gpt4 book ai didi

ruby - 如何使用 mechanize (ruby gem) 解析这个 html 页面? *小修正*

转载 作者:太空宇宙 更新时间:2023-11-03 18:26:50 25 4
gpt4 key购买 nike

在页面上我有以下 HTML 源代码:

<div class="date">date1</div>

<div class="company"><div class="time">time1</div>
<a href="company_link1">company_name1</a></div>

<div class="company"><div class="time">time2</div>
<a href="company_link2">company_name2</a></div>

<div class="date">date2</div>
<div class="company"><div class="time">time3</div>
<a href="company_link3">company_name3</a></div>

... etc.

我需要在最后阶段接收以下数组:

array = [ [date, time1, company_name1, company_link1], [date, time2, company_name2, company_link2], [date2, time3, company_name3, company_link3], ... ]

问题是 div "class=company"没有日期,所以我需要解析正确的日期并将每个日期添加到所有项目(时间、公司名称、公司链接)。

非常感谢您的帮助,我是 Ruby 的新手。

PS:我需要使用 mechanize,因为我的页面只能通过登录来检索。

最佳答案

嗯,你的 date2 div 没有正确关闭,但可能是这样的:

doc.css('.company').map{|x| [x.at('./preceding-sibling::div[@class="date"][1]').text, x.at('.time').text, x.at('a').text, x.at('a')[:href]]}

关于ruby - 如何使用 mechanize (ruby gem) 解析这个 html 页面? *小修正*,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9631891/

25 4 0
文章推荐: ruby - method_missing 中的 attr_accessor
文章推荐: c# - C# 方法签名中的类型转换
文章推荐: python - 使用 tweepy 搜索 API。但得到的结果比我在网站上搜索的要少得多。为什么?
文章推荐: c# - 在 HTML.BeginForm MVC 5 中返回 List