gpt4 book ai didi

ruby - 如何在 Ruby 中抓取、解析和抓取文件?

转载 作者:太空宇宙 更新时间:2023-11-03 17:39:38 24 4
gpt4 key购买 nike

我有许多来自数据仓库的数据文件要处理,格式如下:

:header 1 ...
:header n
# remarks 1 ...
# remarks n
# column header 1
# column header 2
DATA ROWS
(Example: "#### ## ## ##### ######## ####### ###afp## ##e###")

数据由空格分隔,包含数字和其他 ASCII 字符。其中一些数据将被拆分并变得更有意义。

所有数据都将进入数据库,最初是用于开发的 SQLite 数据库,然后推送到另一个更永久的存储空间。

这些文件实际上将通过 HTTP 从远程服务器拉入,我将不得不爬取一些文件,因为它们跨越文件夹和许多文件。

我希望得到一些输入,以“Ruby 方式”实现这一目标的最佳工具和方法可能是什么,以及抽象出其中的一些内容。否则,我处理它的方式可能类似于我在 Perl 中的处理方式或我之前采用的其他类似方法。

我的想法是使用 OpenURI 打开每个 url,然后如果输入是 HTML,则收集要抓取的链接,否则处理数据。我每次都会使用 String.scan 将文件适本地分解成一个多维数组,根据数据提供者建立的格式解析每个组件。完成后,将数据推送到数据库中。移至下一个输入文件/uri。冲洗并重复。

我想我一定缺少一些库,那些有更多经验的人会使用这些库来显着清理/加快这个过程,并使脚本更加灵活,以便在其他数据集上重用。

此外,我将对这些数据进行图形化和可视化以及生成报告,因此也许也应该考虑这一点。

任何关于可能更好的方法或库的输入?

最佳答案

您的问题集中在很多“低级”细节上——解析 URL 等等。 “Ruby Way”的一个关键方面是“不要重新发明轮子”。利用现有库。 :)

我的建议?首先,利用爬虫,例如 spideranemone .二、使用Nokogiri用于 HTML/XML 解析。第三,存储结果。我推荐这样做是因为您以后可能会进行不同的分析,并且您不想放弃您的抓取的辛勤工作。

在不太了解您的约束的情况下,我会考虑将您的结果存储在 MongoDB 中.这么想之后,我快速搜索了一下,找到了一个不错的教程Scraping a blog with Anemone and MongoDB .

关于ruby - 如何在 Ruby 中抓取、解析和抓取文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7669460/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com