r - fread() 运行时间比报告的速度要长-6ren

r - fread() 运行时间比报告的速度要长

转载作者：行者123 更新时间：2023-12-02 02:59:17

25

4

我试图在 EC2 实例上将一个大文件读入 R。但是，在读取某些数据后，我遇到的运行时间远远长于 fread 报告的时间量。

例如，在下面，当我只读入我的 csv 文件的第一行数据时，我有 fread 的 verbose=TRUE 输出。如您所见，报告的运行时间比实际运行时间短得多。你知道为什么会这样吗？有什么方法可以加快这个过程，使其更符合读入数据后害怕报告的运行时？

> start_time <- Sys.time()
> fread(file_name_1, nrows=1, verbose=TRUE)
Input contains no \n. Taking this to be a filename to open
File opened, filesize is 68.770914 GB.
Memory mapping ... ok
Detected eol as \n only (no \r afterwards), the UNIX and Mac standard.
Positioned on line 1 after skip or autostart
This line is the autostart and not blank so searching up for the last non-blank ... line 1
Detecting sep ... ','
Detected 55 columns. Longest stretch was from line 1 to line 30
Starting data input on line 1 (either column names or first row of data). First 10 characters: bank_num,b
All the fields on line 1 are character fields. Treating as the column names.
nrow set to nrows passed in (1)
Type codes (point  0): 1114434134111034444411333333333333333333333333333311111
Type codes: 1114434134111034444411333333333333333333333333333311111 (after applying colClasses and integer64)
Type codes: 1114434134111034444411333333333333333333333333333311111 (after applying drop or select (if supplied)
Allocating 55 column slots (55 - 0 dropped)
Read 1 rows and 55 (of 55) columns from 68.771 GB file in 00:00:27
Read 1 rows. Exactly what was estimated and allocated up front
  26.480s (100%) Memory map (rerun may be quicker)
   0.000s (  0%) sep and header detection
   0.000s (  0%) Count rows (wc -l)
   0.000s (  0%) Column type detection (100 rows at 10 points)
   0.000s (  0%) Allocation of 1x55 result (xMB) in RAM
   0.000s (  0%) Reading data
   0.000s (  0%) Allocation for type bumps (if any), including gc time if triggered
   0.000s (  0%) Coercing data already read in type bumps (if any)
   0.000s (  0%) Changing na.strings to NA
  26.480s        Total
> end_time <- Sys.time()
> end_time - start_time
Time difference of 9.695263 mins

最佳答案

请始终注明版本号；例如sessionInfo() 的输出。但我可以告诉您，您可能使用的是 CRAN 版本。

请经常检查NEWS在询问 Stack Overflow 之前。

第 3 项(在许多其他 fread 改进中):

Memory maps lazily; e.g. reading just the first 10 rows with nrow=10 is 12s down to 0.01s from cold for a 9GB file. Large files close to your RAM limit may work more reliably too. The progress meter will commence sooner and more consistently.

来自 dev 的最新版本可以通过 this install command 轻松试用.您编写了 EC2，所以大概是 Linux，但任何 Windows 用户都可以使用 Windows.zip from dev无需工具。

既然你有一个 68GB 的 csv，你肯定会从 data.table v1.10.5+ 中受益匪浅。请在此处更新您的进展情况。

关于r - fread() 运行时间比报告的速度要长，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47317285/

25

4

0

文章推荐： bazel - tools/bazel.rc 如何与外部工作区依赖项一起工作？

文章推荐： .net-core - 在 dot net core 中从中间件配置依赖注入(inject)

文章推荐： scala - 无法在 Scala 中使用 Apache Commons CLI Option.builder()

文章推荐： angularjs - 通过观察变量触发指令内的函数

java - 捕获的屏幕截图附加到本地 Cucumber 报告，但不附加到 Jenkins 报告
@After public void afterScenario() { if (ScenarioManager.getScenario().isFailed()) {
mysql - Grails + BIRT 报告 - 将月份和年份作为日期传递到 BIRT 报告
我已将 BIRT 报告集成到 Grails 中并设计了一份报告。我的 grails 应用程序中有一个名为 startPeriod (仅限月份和年份)的参数，我想将其传递给 BIRT。然后 BIRT 调
oracle - 将 Oracle 报告 (.rdf) 转换为 BIRT 报告
我有一些 Oracle 报告 (.rdf)，正在考虑将其转换为 BIRT 报告。有没有办法将 .rdf 文件转换为 BIRT 报告设计文件？最佳答案完全自动化的解决方案可能是不可能的。您可以部分自
gcc - 为什么 gcc 4.1 + gcov 报告 100% 的分支覆盖率和更新的(4.4、4.6、4.8)报告 "p = new class;"行的 50%？
当 gcc 4.1(使用 gcov)下一行: p = 新类；报告为 100% 分支覆盖率为什么？因为启用了异常处理!!! 为了解决此问题，请指定: -fno-exceptions 在 g++
Bugzilla 报告
真的有好免费 BugZilla 报告工具？我发现 Web 界面上的默认搜索选项太有限了。我最大的问题是缺少 Order By 选项(一次只有 1 个字段，可供选择的字段集非常有限)。我已经做了一些谷
ColdFusion 报告
是否可以在 CFMX7 上运行 ColdFusion Report builder 生成的报告？更明确地说，是否可以将 CF7 中的报告生成引擎更改为 CF8？最佳答案我猜这可能很难做到。我记得
报告：2025年智能家居市场的机会将达到1190亿美元
根据Lucintel发布的新市场报告，智能家居市场的未来看起来很有吸引力，在家用安全、家电、娱乐、照明、HVAC、医疗保健和厨房应用中将带来许多机遇。由于COVID-19导致的全球经济衰退，
PHPCodeSniffer HTML 报告？
PHPCodeSniffer 是否生成 HTML 报告？如果不是呢？怎么办？目前，我可以运行 PHPCodeSniffer，但它只生成 XML 文件并在终端中显示结果。如何在 phpunit 中
PHPUnit 报告 PHPUnit_Framework_Exception
我在一个包中添加了一个简单的测试。按照手册中的建议，我尝试让 PHPUnit 加载配置: phpunit -c /app phpunit.xml 看起来像这样:
报告 R 中两个数据框之间的差异
我有两个从 csv 文件加载的数据框。基本上来自不同的环境但格式/列相似，它们的行/值可能有所不同。我想找到差异并在新的数据框中创建它们。两个数据框也将具有相同的顺序。我有 100 个要比较的文件。提
JUnit 报告——测试方法描述
我想看看是否有办法通过 javadoc 在我的 junit 报告中包含“描述性文本”。 JUnit 4 似乎不像 TestNG 那样支持 @Test 注释的“描述”属性。到目前为止，我所研究的只有一
Java Struts 报告
我正在使用操作、 Controller 、servlet struts 框架编写 Excel 报告。该报告非常拥挤，已经有大约 10 个单独的查询。由于报告发生变化，我需要再添加大约 10 个查询。有
OpenERP Jasper 报告
在放弃 Syleam 的 openerp jasper 模块后，我在 Nan Tic 的 jasper_reports 模块上苦苦挣扎。它一直给我一个错误: File "C:\Program Fil
php - 按每天按每月计数生成统计数据/报告
我希望创建一个简单的日历。每天由编码器生成条目计数并以日历样式查看。如一月、二月等。或按月显示全年。 database have date_added and encoder columns 我在将它
MySQL 报告 - 订单历史记录
我必须为报告创建 MySQL 查询。我有一个表history，它记录产品订单的状态更改。我有订单生命周期(订单流程)的以下状态:新、已确认、正在处理、已发货、已交付、已取消、已退回。订单不一定遵循此
mysql - 多个查询合而为一(报告)？
如何将多个查询合并为一个？例如: //Successful Sales: SELECT username, count(*) as TotalSales, sum(point) as Points
用于性能优化的 mysqltuner 报告
MySQL 优化技术的新手。请找到下面的 mysqltuner.pl 报告，并建议我应该更改 my.cnf 中的哪些变量以优化性能。还有一个问题- 我无法在我的 my.cnf 中找到一些变量，例如
java - 事件调度线程 - 报告
我想知道，我想将我的 Swing Worker 的某种形式的进度报告回主线程，以便我的界面可以使用随着进度增加而变化的标签进行更新，例如 checking 1/6... checking 2/6...
Magento Paypal 报告
我正在尝试在“报告”>“销售”下运行 Magento Paypal 结算报告，但每次我尝试运行该报告时，我都会收到消息“由于配置为空，无法获取任何内容” 我查看了“系统”>“配置”>“销售”>“付款方
MySQL 报告 - 编辑器
我想要一个工具来帮助创建 sql 查询(对于非 IT 人员)，例如 dbforge。我希望我们的非 IT 人员(例如运营)创建他们自己的 sql 查询。我的第二个目标是让他们能够按需执行这些查询。

首页

博学

6Ren·AI

商城

r - fread() 运行时间比报告的速度要长