- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有许多来自数据仓库的数据文件要处理,格式如下:
:header 1 ...
:header n
# remarks 1 ...
# remarks n
# column header 1
# column header 2
DATA ROWS
(Example: "#### ## ## ##### ######## ####### ###afp## ##e###")
数据由空格分隔,包含数字和其他 ASCII 字符。其中一些数据将被拆分并变得更有意义。
所有数据都将进入数据库,最初是用于开发的 SQLite 数据库,然后推送到另一个更永久的存储空间。
这些文件实际上将通过 HTTP 从远程服务器拉入,我将不得不爬取一些文件,因为它们跨越文件夹和许多文件。
我希望得到一些输入,以“Ruby 方式”实现这一目标的最佳工具和方法可能是什么,以及抽象出其中的一些内容。否则,我处理它的方式可能类似于我在 Perl 中的处理方式或我之前采用的其他类似方法。
我的想法是使用 OpenURI
打开每个 url,然后如果输入是 HTML,则收集要抓取的链接,否则处理数据。我每次都会使用 String.scan
将文件适本地分解成一个多维数组,根据数据提供者建立的格式解析每个组件。完成后,将数据推送到数据库中。移至下一个输入文件/uri。冲洗并重复。
我想我一定缺少一些库,那些有更多经验的人会使用这些库来显着清理/加快这个过程,并使脚本更加灵活,以便在其他数据集上重用。
此外,我将对这些数据进行图形化和可视化以及生成报告,因此也许也应该考虑这一点。
任何关于可能更好的方法或库的输入?
最佳答案
您的问题集中在很多“低级”细节上——解析 URL 等等。 “Ruby Way”的一个关键方面是“不要重新发明轮子”。利用现有库。 :)
我的建议?首先,利用爬虫,例如 spider或 anemone .二、使用Nokogiri用于 HTML/XML 解析。第三,存储结果。我推荐这样做是因为您以后可能会进行不同的分析,并且您不想放弃您的抓取的辛勤工作。
在不太了解您的约束的情况下,我会考虑将您的结果存储在 MongoDB 中.这么想之后,我快速搜索了一下,找到了一个不错的教程Scraping a blog with Anemone and MongoDB .
关于ruby - 如何在 Ruby 中抓取、解析和抓取文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7669460/
以下是一个非常简单的ruby服务器。 require 'socket' local_socket = Socket.new(:INET, :STREAM) local_addr = Socket.
我正在使用 OS X(使用 bash),并且是 unix 的新手。我想知道是否可以修改一些文件以便运行 ruby 程序,我不需要“ruby file.rb”,而是可以运行“ruby.rb”。 有理
我在用 Ruby 替换字符串时遇到一些问题。 我的原文:人之所为不如兽之所为。 我想替换为:==What== human does is not like ==what== animal does.
我想在一个循环中从 Ruby 脚本做这样的事情: 写一个文件a.rb(每次迭代都会改变) 执行系统(ruby 'a.rb') a.rb 将带有结果的字符串写入文件“results” a.rb 完成并且
我的问题是尝试创建一个本地服务器,以便我可以理解由我的新团队开发的应用程序。我的问题是我使用的是 Ruby 2.3.3,而 Gemfile 需要 2.3.1。我无法编辑 Gemfile,因为我被告知很
我有一个使用 GLI 框架用 Ruby 编写的命令行实用程序。我想在我的主目录中配置我的命令行实用程序,使用 Ruby 本身作为 DSL 来处理它(类似于 Gemfile 或 Rakefile)。 我
我的 Rails 应用 Controller 中有这段代码: def delete object = model.datamapper_class.first(:sourced_id =>
我正在寻找的解析器应该: 对 Ruby 解析友好, 规则设计优雅, 产生用户友好的解析错误, 用户文档的数量应该比计算器示例多, UPD:允许在编写语法时省略可选的空格。 快速解析不是一个重要的特性。
我刚开始使用 Ruby,听说有一种“Ruby 方式”编码。除了 Ruby on Rails 之外,还有哪些项目适合学习并被认可且设计良好? 最佳答案 Prawn被明确地创建为不仅是一个该死的好 PDF
我知道之前有人问过类似的问题,但是我该如何构建一个无需在前面输入“ruby”就可以在终端中运行的 Ruby 文件呢? 这里的最终目标是创建一个命令行工具包类型的东西。现在,为了执行我希望用户能够执行的
例如哈希a是{:name=>'mike',:age=>27,:gender=>'male'}哈希 b 是 {:name=>'mike'} 我想知道是否有更好的方法来判断 b 哈希是否在 a 哈希内,而
我是一名决定学习 Ruby 和 Ruby on Rails 的 ASP.NET MVC 开发人员。我已经有所了解并在 RoR 上创建了一个网站。在 ASP.NET MVC 上开发,我一直使用三层架构:
最近我看到 Gary Bernhardt 展示了他用来在 vim 中执行 Ruby 代码的 vim 快捷方式。捷径是 :map ,t :w\|:!ruby %. 似乎这个方法总是执行系统 Rub
在为 this question about Blue Ruby 选择的答案中,查克说: All of the current Ruby implementations are compiled to
我有一个 Ruby 数组 > list = Request.find_all_by_artist("Metallica").map(&:song) => ["Nothing else Matters"
我在四舍五入时遇到问题。我有一个 float ,我想将其四舍五入到小数点后的百分之一。但是,我只能使用 .round ,它基本上将它变成一个 int,意思是 2.34.round # => 2. 有没
我使用 ruby on rails 编写了一个小型 Web 应用程序,它的主要目的是上传、存储和显示来自 xml(文件最多几 MB)文件的结果。运行大约 2 个月后,我注意到 mongrel 进程
我们如何用 Ruby 转换像这样的字符串: 𝑙𝑎𝑡𝑜𝑟𝑟𝑒 收件人: Latorre 最佳答案 s = "𝑙𝑎𝑡𝑜𝑟𝑟𝑒" => "𝑙𝑎𝑡𝑜𝑟𝑟𝑒" s.u
通过 ruby monk 时,他们偶尔会从左侧字段中抛出一段语法不熟悉的代码: def compute(xyz) return nil unless xyz xyz.map {|a,
不确定我做错了什么,但我似乎弄错了。 问题是,给你一串空格分隔的数字,你必须返回最大和最小的数字。 注意:所有数字都是有效的 Int32,不需要验证它们。输入字符串中始终至少有一个数字。输出字符串必须
我是一名优秀的程序员,十分优秀!