gpt4 book ai didi

ruby - 使用 Mechanize 抓取/提取数据

转载 作者:行者123 更新时间:2023-12-04 16:22:07 25 4
gpt4 key购买 nike

这个问题在这里已经有了答案:





extract single string from HTML using Ruby/Mechanize (and Nokogiri)

(2 个回答)


7年前关闭。




使用 Mechanize,我想在这个网站上抓取信息 => http://www.africanbookscollective.com

这是我想收集的信息:

  • 小说类别下列出的所有书籍

  • 在这个类别下,我想要:
  • 作者姓名
  • 书名
  • isbn号码
  • 出版商
  • 国家

  • 我发现这个 url =>
    http://www.africanbookscollective.com/browse/african-literature/fiction
    给我我想要的信息。

    这是我当前的代码:
    require 'awesome_print'
    require 'rubygems'
    require 'mechanize'

    agent = Mechanize.new
    page = agent.get('http://www.africanbookscollective.com/browse/african-literature/fiction')
    a = page.links.each do |link|
    puts link.text
    end

    ap a

    这是我第一次使用 Mechanize ,因此我不确定它与 Nokogiri 有何不同。我在这种特殊情况下使用它的主要原因是因为我需要提取 38 页的信息( 标记为 Fiction 的书籍的完整列表)。

    问题:
  • 我从 mechanize 得到了一个非常长的输出,其中包括我不需要的链接。
  • 我需要的信息不在 div 类中 - 它在 dl 类中,我尝试在谷歌上搜索如何选择 dl 类,但到目前为止还没有任何运气。
  • 每次我执行正则表达式操作以删除我不使用的链接时,我都会返回一个空数组

  • 任何人都可以帮助我想出一种新的方法来解决这个问题吗?我真的很感激反馈。

    PS:这是一张可能会散发出更多光芒的图像

    enter image description here

    最佳答案

    您可以使用 scrape4me.com 获取原始输出以在您的项目中进行进一步处理( Mechanize ) 不知道 Mechanize ,但也许这会有所帮助,祝您好运

    关于ruby - 使用 Mechanize 抓取/提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20872392/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com