gpt4 book ai didi

ruby - 在 Ruby 中抓取/解析谷歌搜索结果

转载 作者:数据小太阳 更新时间:2023-10-29 07:21:53 26 4
gpt4 key购买 nike

假设我有 Google 搜索结果页面的完整 HTML。有谁知道任何现有代码(Ruby?)来抓取/解析谷歌搜索结果的第一页?理想情况下,它将处理可以在任何地方出现的购物结果和视频结果部分。

如果不是,一般来说,最好的基于 Ruby 的屏幕抓取工具是什么?

澄清一下:我知道很难/不可能以编程方式/API 方式获取 Google 搜索结果,而且简单地 curl 结果页面有很多问题。在 stackoverflow 上对这两点达成了共识。我的问题不同。

最佳答案

这应该很简单,看看 Ryan Bates 转换的“Screen Scraping with ScrAPI”屏幕。您仍然可以不抓取库,只需坚持使用 Nokogiri 之类的东西即可.


来自 Nokogiri 的 documentation :

require 'nokogiri'
require 'open-uri'

# Get a Nokogiri::HTML:Document for the page we’re interested in...

doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))

# Do funky things with it using Nokogiri::XML::Node methods...

####
# Search for nodes by css
doc.css('h3.r a.l').each do |link|
puts link.content
end

####
# Search for nodes by xpath
doc.xpath('//h3/a[@class="l"]').each do |link|
puts link.content
end

####
# Or mix and match.
doc.search('h3.r a.l', '//h3/a[@class="l"]').each do |link|
puts link.content
end

关于ruby - 在 Ruby 中抓取/解析谷歌搜索结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1539798/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com