ruby - 使用 Heroku 存储和处理大型 XML 文件？-6ren

ruby - 使用 Heroku 存储和处理大型 XML 文件？

转载作者：太空宇宙更新时间：2023-11-03 16:30:57

25

4

我正在开发一个需要存储 2GB 以上的大型 XML 文件进行处理的应用程序，我面临两个问题:

如何处理该文件？一次将整个文件加载到 Nokogiri 是行不通的。它很快就会耗尽内存，据我所知，这个过程从轨道上消失了。是否有 Heroku 兼容的方法可以快速/轻松地以较小的 block 读取位于非 Heroku 服务器上的大型 XML 文件？
如何存储文件？该站点设置为使用 S3，但数据提供者需要 FTP 访问权限才能每晚上传 XML 文件。通过 FTP 的 S3 显然是不行的，将文件存储在 Heroku 上也行不通，因为它只会被拥有它的 dyno 看到并且容易被随机清除。以前有人遇到过这种类型的约束吗？如果遇到过，您是如何解决的？

最佳答案

大多数时候我们更喜欢解析已被拉入内存的整个文件，因为它更容易来回跳转，根据我们的代码需要提取这个和那个。因为它在内存中，所以我们可以根据需要轻松地进行随机访问。

根据您的需要，您需要从文件顶部开始阅读每一行，寻找感兴趣的标签，直到到达文件末尾。为此，您想使用 Nokogiri::XML::SAX和 Nokogiri::XML::SAX::Parser ，以及 Nokogiri::XML::SAX::Document 中的事件.以下是来自 Nokogiri 网站的功能摘要:

The basic way a SAX style parser works is by creating a parser, telling the parser about the events we’re interested in, then giving the parser some XML to process. The parser will notify you when it encounters events your said you would like to know about.

SAX 与处理 DOM 不同，但它速度非常快，而且更容易内存。

如果你想以较小的 block 加载文件，你可以在 OpenURI.open 或 Net::HTTP block 中处理 XML，这样你就可以以 TCP 数据包大小的 block 的形式获取它。那么问题是您的行可能会被拆分，因为 TCP 不保证按行读取，而是按 block 读取，这就是您将在读取循环中看到的内容。您的代码必须剥离缓冲区末尾的部分行，然后将它们添加到读取缓冲区中，以便下一个 block 读取完成该行。

关于ruby - 使用 Heroku 存储和处理大型 XML 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16047358/

25

4

0

文章推荐： c# - ListPicker 在被解雇时不调用 SummaryForSelectedItemsDelegate

文章推荐： asp.net - 请求查询字符串有 np PayPal 返回变量

文章推荐： c# - 带有 SqlServerCe.3.5 的 Entity Framework - 连接异常

heroku - 如何在 Heroku bash 或 Heroku Scheduler 中实现 Heroku 部署
我正在尝试使用 Heroku Scheduler 在已部署的 Heroku 应用程序中调用 HTTP 端点，它基本上以固定速率在 Heroku bash 上运行命令。当我运行 $ heroku ru
heroku - 如何从 Heroku 上运行的应用程序内部以编程方式设置 Heroku 配置变量？
我有一个在 Heroku 上运行的应用程序，其中有一些我想不时更改的设置，并且我想使用 Heroku 配置变量来存储这些设置，以便它们持久存在。我知道我可以从 Heroku 仪表板或 Heroku
heroku - 如何将试剂前端部署到 Heroku？
我从模板 reagent-frontend 创建了一个 ClojureScript Reagent 应用程序。如何将生产应用程序部署到 Heroku？在为生产构建后(lein package/lein
heroku - 将信用卡添加到 Heroku
我正在尝试在 heroku 上添加信用卡，然后消息显示“无法验证您的卡，请稍后再试或联系您的金融机构寻求帮助” 最佳答案这是因为您的银行拒绝付款。检查您是否输入了所有正确的详细信息查看您银行的最
heroku - 如何解决 Heroku 应用程序错误 (heroku logs --tail)
首先为我的英语感到抱歉，因为它不是我的母语，我不习惯它，它可能很难理解。我正在尝试将我的 spike 应用程序连接到 heroku 以获取长期葡萄糖数据。我在没有“部署分支”步骤的情况下成功完成了
heroku - Heroku 计费的最短时间是多少？
Ec2 实例小时按小时计算。如果你只是启动和关闭一个实例，它仍然算作一小时。 Heroku 如何处理这个？按分钟还是按小时？让我们假设我的应用程序使用超过 750 免费 Dyno 小时限制最佳答案
heroku - heroku 是如何想出应用名称的？
好奇 heroku 如何创建应用程序名称。应用程序名称通常是英文单词，例如bloom-peaks 或formal-trail。一家大公司的 IT 部门也是如此。是否有用于名称生成的 unix 库？最
heroku - Heroku 上的文档拆分
有没有人在 Heroku 上成功使用过 docsplit？它有许多二进制依赖项。我已经搜索过，但没有找到任何人这样做。教程会很棒，但我真的很好奇其他人是否成功。最佳答案我的搜索没有找到任何做过这件
heroku - heroku 上有哪些熵源？
我想将一个应用程序部署到需要能够生成加密安全随机数的 heroku。我可以使用哪些熵源？最佳答案你的 Heroku dyno 基本上是一个 Ubuntu 服务器虚拟机，所以你应该可以访问 /dev
heroku - 将自定义维护页面加载到 Heroku
Heroku 可以显示自定义维护页面: heroku config:set MAINTENANCE_PAGE_URL=http://some_server/my_page.html 这需要某些网站的存
heroku - Heroku 的计费限制
我正在开始使用 Heroku，并担心它是否会因我犯的错误而向我收费。例如，填充数据库超过 5MB。那么，有没有办法为 Heroku 或通知系统设置计费限制，以便在我超过价格限制时发送通知？先感谢您
heroku - 如何更新 Heroku？
如何更新我的 Heroku ，我的 Windows 终端显示以下内容: » Warning: heroku update available from 7.47.7 to 7.52.0. 请帮忙
heroku - Heroku 平台上的扩展指南
我在免费的 Dyno 上运行基于 NodeJS 的应用程序，连接到 mongohq-MongoDB。我想迁移它以使用爱好 Dyno，这样做的动机不仅是避免 sleep 时间，而且是为了实现更高的 HT
heroku - Heroku 流量成本是多少？
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
heroku - 将生产数据库复制到暂存 heroku
如何将我的生产数据库拉到 heroku 上的暂存服务器？我有两个 Remote ，production 和 staging。来自documentation看来我想运行 heroku pg:copy
heroku - Heroku 上的自定义根域
我有一个域example.com，我想将它用于位于example.herokuapp.com 的rails-app，我很困惑如何去做。 Heroku says "Zone apex domains (
heroku - 本地环境变量和 Heroku
我有一个 sinatra 应用程序，其中有一个 yml 文件来设置环境变量，我使用此方法调用它们 module MyConfig def config environment = ENV["RA
heroku - Heroku:如何根据加载时间动态缩放测功机？
根据各种因素，一整天中，我的应用程序的负载可能会出现非常极端的增加。那时，我想自动增加测功机的数量。我想增加加载时间。因此，如果加载页面需要X倍的时间，请增加测功力。否则，请往下走。这样的东西存
heroku - Heroku Toolbelt在多个帐户之间切换
我想知道使用heroku工具栏在heroku帐户之间进行切换的最佳方法是什么。我曾经有一个个人的heroku帐户，它是我所有职业性的heroku应用程序的协作者。问题是当我想进行一些对财务有影响的更
heroku - 如何停止部署到正在进行的 Heroku
是否可以停止部署到当前正在构建的 Heroku ( git push heroku )？类似 heroku run stopit! 顺便提一句。成功部署后回滚不是我想要的。最佳答案首先，安装He

首页

博学

6Ren·AI

商城

ruby - 使用 Heroku 存储和处理大型 XML 文件？