ruby-on-rails - ROR/Hpricot : parsing a site and searching/comparing strings with regex-6ren

ruby-on-rails - ROR/Hpricot : parsing a site and searching/comparing strings with regex

转载作者：太空宇宙更新时间：2023-11-03 16:06:25

24

4

我刚开始使用 Ruby On Rails，想创建一个简单的网站爬虫:

浏览所有 Sherdog 战士的资料。
获取裁判的姓名。
将名称与旧名称进行比较(在站点解析期间和从文件中)。
打印所有唯一名称并将其保存到文件中。

一个示例 URL 是:http://www.sherdog.com/fighter/Fedor-Emelianenko-1500

我正在搜索类似 <span class="sub_line">Dan Miragliotta</span> 的标签条目, 不幸的是，除了我需要的正确 Referee 名称之外，相同类型的类还用于:

日期。
“N/A”表示裁判姓名未知。

我需要丢弃所有带有“N/A”字符串的结果以及任何包含数字的字符串。我设法做了第一部分，但不知道如何做第二部分。我尝试搜索、思考和试验，但在试验和重写之后，设法破坏了整个程序并且不知道如何(正确地)修复它:

require 'rubygems'
require 'hpricot'
require 'simplecrawler'

# Set up a new crawler
sc = SimpleCrawler::Crawler.new("http://www.sherdog.com/fighter/Fedor-Emelianenko-1500")
sc.maxcount = 1
sc.include_patterns = [".*/fighter/.*$", ".*/events/.*$", ".*/organizations/.*$", ".*/stats/fightfinder\?association/.*$"]

# The crawler yields a Document object for each visited page.
sc.crawl { |document|
# Parse page title with Hpricot and print it
hdoc = Hpricot(document.data)

(hdoc/"td/span[@class='sub_line']").each do |span|
  if span.inner_html == 'N/A' || Regexp.new(".*/\d\.*$").match(span.inner_html)
    # puts "Test"
  else
    puts span.inner_html
    #File.open("File_name.txt", 'a') {|f| f.puts(hdoc.span.inner_html) } 
  end
end
}

我也很感激对程序其余部分的想法的帮助:如果程序运行多次，我如何从文件中正确读取当前名称，以及如何比较唯一名称？

编辑:

经过一些提议的改进后，这是我得到的:

require 'rubygems'
require 'simplecrawler'
require 'nokogiri'
#require 'open-uri'

sc = SimpleCrawler::Crawler.new("http://www.sherdog.com/fighter/Fedor-Emelianenko-1500")
sc.maxcount = 1

sc.crawl { |document|
doc = Nokogiri::HTML(document.data)
names = doc.css('td:nth-child(4) .sub-line').map(&:content).uniq.reject { |c| c == 'N/A' }
puts names
}

不幸的是，代码仍然不起作用 - 它返回一个空白。

如果不是 doc = Nokogiri::HTML(document.data) , 我写 doc = Nokogiri::HTML(open(document.data)) , 然后它给了我整个页面，但是，解析仍然不起作用。

最佳答案

hpricot 不再维护。如何使用 nokogiri相反？

names = document.css('td:nth-child(4) .sub-line').map(&:content).uniq.reject { |c| c == 'N/A' }
=> ["Yuji Shimada", "Herb Dean", "Dan Miragliotta", "John McCarthy"]

不同部分的分割:

document.css('td:nth-child(4) .sub-line')

这将返回一个 html 元素数组，其类名 sub-line 位于第四个表列中。

.map(&:content)

对于前面数组中的每个元素，返回element.content(内部html)。这相当于 map({ |element| element.content })。

.uniq

从数组中删除重复值。

.reject { |c| c == 'N/A' }

移除值为“N/A”的元素

关于ruby-on-rails - ROR/Hpricot : parsing a site and searching/comparing strings with regex，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12831250/

24

4

0

文章推荐： ruby 太阳黑子 : how to refactor common code between search do block?

文章推荐： paypal - DoExpressCheckout 10004 - 没有额外的错误信息

文章推荐： javascript - Paypal IPN - 在打开 Paypal 网站之前重定向页面

ruby-on-rails - rails : What is `sanitize` in Rails?
sanitize 是什么意思在 Rails 中是什么意思？我正在阅读 CanCanCan 的文档.它说: When using strong_parameters or Rails 4+, you
ruby-on-rails - Rails on Rails 将其提升到一个新的水平
在过去的几个月里，我感觉自己对 Ruby on Rails (RoR) 开发的了解达到了极限。我为大/小客户和 friend /爱好项目开发了大大小小的应用程序。我知道如何开发这些应用程序，但开始感觉
ruby-on-rails - rails : How do I make my rails project a Hexagonal rails project?
我昨天参加了一个关于扩展 Rails 的聚会，其中一个主题是 Hexagonal Rails。然而，我只做了一年的 Rails，对 MVC 结构非常满意(也许太舒服了)，所以我不太了解适配器和消息队列
ruby-on-rails - 改善缓慢的 Rails 启动时间(rails 控制台、rails 服务器)
我使用多个 Rails 应用程序，一些在 Rails 3.2/Ruby 2.0 上，一些在 Rails 2.3/Ruby 1.8.7 上。他们的共同点是，随着他们的成长和添加更多的依赖项/ gem
ruby-on-rails - rails 6 : Rails not defined
这个问题在这里已经有了答案: Using Rails-UJS in JS modules (Rails 6 with webpacker) (5 个答案) 关闭 3 年前。我正在尝试使用 UJS
ruby-on-rails - 我应该如何升级 Rails 应用程序以使用最新版本的 Rails
我正在开发一个当前使用 Rails 1.2 的 Rails 应用程序，所以我现在离最新的稳定版本(Rails 2.3)还有很长的路要走。我应该如何进行迁移到更新版本的 Rails 的过程？我应该一
ruby-on-rails - rails : backbone-on-rails gem-
尝试按照 Ryan Bates Backbone.js 教程构建抽奖应用程序，但我已经遇到了第一段代码的问题。在 application.js 的 init 函数中，他初始化了 Raffler 路由的
ruby-on-rails - rails : Or & and in Rails ActiveRecord where clause
我正在使用 Rails 3.2 并且我有一个数据库表，我想在其中找到符合以下条件的所有行: a = true and b = true and ( 0 true, :b =>
ruby-on-rails - Rails - 跳过子类的 rails 验证
我有一个用户类和一个联系人，其中联系人是用户的子类。这两个类都存储在用户表中。我的联系人可能有也可能没有电子邮件地址，而我的用户需要一个电子邮件地址(我的用户模型定义中有 validates_pre
ruby-on-rails - 脚本/rails 与 rails
我正在编写一个教程，我在其中演示了一些 rails 命令。在我的机器上 rails和 script/rails两者都同样有效。有“首选”形式吗？两者中哪一个更普遍？最佳答案当您运行 rails 时
ruby-on-rails - rails 4，elasticsearch-rails
我正在寻找有关通过我的应用程序前进的最佳方式的建议，这是我首次开始集成Elasticsearch。我是一名初学者，但是热衷于深入研究，以便原谅任何明显的错误! 我遵循了http://www.sitep
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 4 railties 的可执行文件 "rails"与 rails 冲突
我有 Rails 4，这是我的默认版本(我仍然希望它是)。但我不想在我的电脑上添加 rails 3.2。在以下命令中:gem install rails -v 3.2.16 我有这个警告: railt
ruby-on-rails - rails + sheevaplug = rails 家庭开发服务器等等
您好，我想使用 Sheevaplug 构建一个“Rails Brick”来自 Marvell(操作系统是开箱即用的 Ubuntu，但您可以在其上安装其他发行版)。它将成为家庭服务器和静音、低成本(99
ruby-on-rails - Rails -- 从 Rails 控制台发送所有未接受的邀请
我需要能够从 Rails 控制台发送我的 Rails 应用程序的 Postgres 数据库中所有未接受的邀请。 (我有一个名为 Invitations 的表，其中包含一个名为 accepted 的 b
ruby-on-rails - Rspec rails on rails 验证
validate :cannot_modify_if_locked, on: :update def cannot_modify_if_locked if self.locked erro
ruby-on-rails - Rails 路由语法 - 从 rails 2 到 rails 3
我正在学习教程(学习 Rails 播客)，需要更改以下路由语法，以便它与 Rails 3.0 兼容。谁能帮忙？ map.view_page ':name', :controller => 'viewe

首页

博学

6Ren·AI

商城

ruby-on-rails - ROR/Hpricot : parsing a site and searching/comparing strings with regex