gpt4 book ai didi

ruby-on-rails - 如何使用 ruby​​ 获取 HTML 标签之间的字符串?

转载 作者:太空宇宙 更新时间:2023-11-03 17:13:21 24 4
gpt4 key购买 nike

大家好:

我很想从大量的 Google 搜索结果页面中获取一些信息。我唯一需要的是一堆 <cite></cite> 中的 URL。 HTML 标签。

我无法以任何其他适当的方式获得解决方案来处理这个问题,所以现在我转向 ruby​​。

到目前为止,这是我写的:

require 'net/http'
require 'uri'

url=URI.parse('http://www.google.com.au')
res= Net::HTTP.start(url.host, url.port){|http|
http.get('/#hl=en&q=helloworld')}
puts res.body

不幸的是,我不能使用推荐的 hpricot ruby​​ gem(因为它缺少 make 命令或其他东西?)

所以我想坚持这种方法。

现在我可以将响应主体作为字符串获取,我唯一需要做的就是检索 ciite 中的任何内容(删除 i 以查看真实名称 :))HTML 标记。

我应该怎么做?使用正则表达式?谁能给我举个例子?

最佳答案

这是使用 Nokogiri 实现的一种方法:

Nokogiri::HTML(res.body).css("cite").map {|cite| cite.content}

关于ruby-on-rails - 如何使用 ruby​​ 获取 HTML <cite> 标签之间的字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1442279/

24 4 0