使用包 data.table 中的 fread 一次读取 block-6ren

使用包 data.table 中的 fread 一次读取 block

转载作者：行者123 更新时间：2023-12-03 10:27:23

25

4

我正在尝试使用 fread 输入一个大的制表符分隔文件(大约 2GB)包中的函数 data.table .但是，因为它太大了，它不能完全放入内存中。我尝试使用 skip 分块输入它和 nrow论据，例如:

chunk.size = 1e6
done = FALSE
chunk = 1
while(!done)
{
    temp = fread("myfile.txt",skip=(chunk-1)*chunk.size,nrow=chunk.size-1)
    #do something to temp
    chunk = chunk + 1
    if(nrow(temp)<2) done = TRUE
}

在上面的例子中，我一次读取 100 万行，对它们进行计算，然后得到下一百万行，等等。这段代码的问题是在检索每个块后， fread需要从头开始扫描文件，因为每次循环迭代后， skip增加一百万。结果，在每个块之后， fread实际到达下一个块需要越来越长的时间，这使得这非常低效。

有没有办法告诉 fread暂停每说 100 万行，然后从那一刻开始继续阅读而不必从头开始？任何解决方案，或者这应该是新功能请求？

最佳答案

您应该使用 LaF包裹。这会在您的数据上引入一种指针，从而避免 - 对于非常大的数据 - 读取整个文件的烦人行为。据我所知 fread()在 data.table pckg 需要知道总行数，这需要时间处理 GB 数据。
在 LaF 中使用指针你可以去到你想要的每一行；并读取可以应用函数的数据块，然后继续下一个数据块。在我的小型 PC 上，我以 10e6 行的步长运行了一个 25 GB 的 csv 文件，并提取了总共需要约 5e6 的观察结果——每个 10e6 块需要 30 秒。

更新:

library('LaF')
huge_file <- 'C:/datasets/protein.links.v9.1.txt'

#First detect a data model for your file:
model <- detect_dm_csv(huge_file, sep=" ", header=TRUE)

然后使用模型创建与文件的连接:

df.laf <- laf_open(model)

完成后，您可以执行各种操作，而无需知道 data.table pckgs 中的文件大小。例如，将指针指向第 100e6 行并从此处读取 1e6 行数据:

goto(df.laf, 100e6)
data <- next_block(df.laf,nrows=1e6)

现在 data包含 CSV 文件的 1e6 行(从第 100e6 行开始)。

您可以读取大块数据(大小取决于您的内存)并只保留您需要的内容。例如 huge_file在我的示例中，指向一个包含所有已知蛋白质序列的文件，并且文件大小 > 27 GB - 对我的 PC 来说太大了。为了只获得人类序列，我使用生物体 id 过滤，人类的 9606 应该出现在变量 protein1 的开头。 .一种肮脏的方法是将它放入一个简单的 for 循环中，一次只读取一个数据块:

library('dplyr')
library('stringr')

res <- df.laf[1,][0,]
for(i in 1:10){
  raw <-
    next_block(df.laf,nrows=100e6) %>% 
    filter(str_detect(protein1,"^9606\\."))
  res <- rbind(res, raw)

    }

现在 res包含过滤后的人类数据。但更好 - 对于更复杂的操作，例如实时计算数据 - 函数 process_blocks()将函数作为参数。因此，在函数中，您可以对每条数据做任何你想做的事情。阅读文档。

关于使用包 data.table 中的 fread 一次读取 block ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19894194/

25

4

0

文章推荐： api - 使用 API 连接到 QuickBooks

文章推荐： javascript - JQuery $.ajax - 未调用 done()

文章推荐： javascript - 基于类的点击事件在 10 行后无响应 - 数据表

文章推荐： hibernate - JPA 实体 ID - long 或 Long

blockly - 在 blockly block 中读取用户输入的输入
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
Android将图像分成几 block 并获得等效大小的图像 block ( block )
首先抱歉我的英语不好，我正在开发 Image Splitter 应用程序并且已经完成，但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
block - smalltalk block - 我可以显式设置返回值并停止执行 block 吗？
#value: 消息的返回值，当发送到一个 block 时，是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
css - 当一个 block 高于其他 block 时，内联 block 对 block 应用顶部效果
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ，我得到一个我不理解的行为。问题是，第三 block 由 2
blockly - Blockly 有文件选择器吗？
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。它的一部分需要一个文件选择器，但是，我看不到 Blockly 有一个。是吗？实际上，我找不到完整的标准 block 列表。谁有网址？
reactjs - 有没有办法在父 block 中知道您正在编辑该父 block 的内部 block ？
仅当您位于父 block 内部时，父 block 的 props.isSelected 才为 true，但当您在该 block 的 innerBlocks 内进行编辑时则不然。如何从父 block
reactjs - 有没有办法在父 block 中知道您正在编辑该父 block 的内部 block ？
仅当您位于父 block 内部时，父 block 的 props.isSelected 才为 true，但当您在该 block 的 innerBlocks 内进行编辑时则不然。如何从父 block
html - 我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ，但不能一起创建。所以请告诉我如何
ios - block 指针变量 'block' 在被 block 捕获时未初始化
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
ios - 为什么必须复制 block 而不是保留 block ？什么时候不需要复制 block ？
为什么 block 必须被复制而不是保留？两者在引擎盖下有什么区别？在什么情况下不需要复制 block (如果有)？最佳答案通常，当您分配一个类的实例时，它会进入堆并一直存在，直到它被释放。但是，
ios - block block block ，用 __weak self
我想弄清楚我这样做是否正确: 如果我有一个 block ，我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
javascript - 当单击部分中的每个 block 时，显示一个 block ，同时使用 jquery 隐藏其他 block 出现第二个 block ，第三个和第四个
我想制作一个 4 block 导航菜单，虽然我已经显示了一个 block ，然后单击打开第二个 block ，从第二个开始选择并再次单击出现第三个 block ，第四个 block 相同...这是我的
java - 最好在 try block 内有一个同步块(synchronized block)，还是在同步块(synchronized block)内有一个 try block ？
例如，这样更好吗？ try { synchronized (bean) { // Write something } } catch (Int
simulation - 尝试检查前方色 block 并根据前方色 block 的色 block 颜色做出决定
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的，那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误，显示“此处应为 TRUE？FALSE，而不是 block 列表
在 block 矩阵的对角部分重复 block 矩阵多次，非对角 block 全部为零矩阵？
我想创建一个 block 对角矩阵，其中对角 block 重复一定次数，非对角 block 都是零矩阵。例如，假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
blockchain - 如何通过区 block 号访问以太坊区 block 链上一个区 block 的数据？
我是区 block 链新手。突然我有一个问题，我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。例如我创建了一个block1、block2。 block
blockchain - 如何通过区 block 号访问以太坊区 block 链上一个区 block 的数据？
我是区 block 链新手。突然我有一个问题，我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。例如我创建了一个block1、block2。 block
game-engine - 如何在不与其他图 block 重叠的情况下将等距对象从一个图 block 过渡到另一个图 block
我创建了一个等距环境，全部使用 Javascript 和 HTML5 (2D Canvas)，大部分情况下工作正常。我面临的问题是使用不同高度的图 block ，然后对图 block 上的对象索引进行
java - 如果try block 中有 "Where (true)" block ，是否会到达finally block ？
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
c# - TPL 数据流转换 block 发布到批处理 block ，然后是操作 block
我有一个基于 TPL 数据流的应用程序，它仅使用批处理 block 和操作 block 就可以正常工作。我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转

首页

博学

6Ren·AI

商城

使用包 data.table 中的 fread 一次读取 block