gpt4 book ai didi

ruby - 使用 2 次搜索进行 Mechanize 抓取?

转载 作者:行者123 更新时间:2023-12-04 16:20:57 36 4
gpt4 key购买 nike

我正在使用 Mechanize 抓取博客,试图获得以下结果。主要是无法将我的想法转化为代码逻辑。我假设我需要组合搜索子句并遍历 html 并在找到匹配项时打印出来。使用 Rails 的新手和任何建议都会有所帮助。

预期结果:

  • 第一个标题
  • first_image_url
  • second_image_url
  • 第二个标题
  • first_image_url
  • second_image_url

  • 代码:
    require 'rubygems'
    require 'mechanize'

    url = 'http://blog.something.com/'
    mech = Mechanize.new
    page = mech.get(url)

    page.search('h2').each do |h2|
    puts h2.inner_text
    end

    imgs = page.search('img[src]').map{|src| src['src']}
    puts imgs

    代码权利当然产生:
  • first_title
  • second_title
  • 第三个标题
  • ...
  • first_image_url
  • second_image_url
  • first_image_url
  • ...
  • 最佳答案

    假设图像是从 h2 派生而来的,你可以这样做:

    page.search('h2').each do |h2|
    puts h2.inner_text
    h2.css('img').each do |img|
    puts img['src']
    end
    end

    关于ruby - 使用 2 次搜索进行 Mechanize 抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8208009/

    36 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com