python - 导入 500GB 文本文件的最快方法，只取需要的部分-6ren

python - 导入 500GB 文本文件的最快方法，只取需要的部分

转载作者：太空狗更新时间：2023-10-29 22:27:30

28

4

我在几个月内分离了大约 500GB 的文本文件。在这些文本文件中，前 43 行只是连接信息(不需要)。接下来的 75 行是观察的描述符。接下来是 4 行(不需要)，然后是下一个观察结果，即 75 行。

我想要的是这 75 行(每次观察的描述符都在同一个地方)，它们的特征如下:

ID: 5523
Date: 20052012
Mixed: <Null>
.
.

我想将其更改为 csv 格式 5523;20052012;;.. 用于每次观察。这样我最终得到的文本文件要小得多。由于描述符相同，我会知道第一个位置是 ID。

完成文本文件后，我将打开下一个文件并附加它(或者创建一个新文件会更快吗？)。

我一直在打开文件，但效率很低。加载它。逐行删除这些观察结果。如果它对测试样本采取了相当多的措施，那么它显然不是最好的方法。

任何建议都会很棒。

最佳答案

您说您有“大约 500GB 的文本文件”。如果我理解正确的话，你没有为每个观察的固定长度(注意，我不是在谈论行的数量，我的意思是所有的总长度，以字节为单位观察线)。这意味着您将必须遍历整个文件，因为您无法确切知道换行符的位置。

现在，根据每个单独的文本文件的大小，您可能需要寻找不同的答案。但是如果每个文件都足够小(小于 1 GB？)，您也许可以使用 linecache模块，它为您处理逐行搜索。

你可能会像这样使用它:

import linecache

filename = 'observations1.txt'

# Start at 44th line
curline = 44
lines = []

# Keep looping until no return string is found
# getline() never throws errors, but returns an empty string ''
# if the line wasn't found (if the line was actually empty, it would have
# returned the newline character '\n')
while linecache.getline(filename, curline):
    for i in xrange(75):
        lines.append(linecache.getline(filename, curline).rstrip())
        curline += 1

    # Perform work with the set of observation lines
    add_to_observation_log(lines)

    # Skip the unnecessary section and reset the lines list
    curline += 4
    lines = []

我对此进行了测试，它在 5 秒内完成了一个 23MB 的文件。

关于python - 导入 500GB 文本文件的最快方法，只取需要的部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10676170/

28

4

0

文章推荐： c# - MVC 3 中带有 LINQ 表达式的自定义 html 助手

文章推荐： c# - DataLoadOptions 等同于 LINQ to Entities？

文章推荐： Python functools.namedtuple

Ruby 方法() 方法
我想了解 Ruby 方法 methods() 是如何工作的。我尝试使用“ruby 方法”在 Google 上搜索，但这不是我需要的。我也看过 ruby-doc.org，但我没有找到这种方法。
VBS教程：方法-Test 方法
Test 方法对指定的字符串执行一个正则表达式搜索，并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
VBS教程：方法-Replace 方法
Replace 方法替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
VBS教程：方法-Raise 方法
Raise 方法生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
VBS教程：方法-Execute 方法
Execute 方法对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
VBS教程：方法-Clear 方法
Clear 方法清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。说明在错误处理后，使用 Clear 显式地清除 Err 对象。此
VBS教程：方法-CopyFile 方法
CopyFile 方法将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
VBS教程：方法-Copy 方法
Copy 方法将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
VBS教程：方法-Close 方法
Close 方法关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。说明下面例子举例说明如何使用 Close 方
VBS教程：方法-BuildPath 方法
BuildPath 方法向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
VBS教程：方法-GetFolder 方法
GetFolder 方法返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
VBS教程：方法-GetFileName 方法
GetFileName 方法返回指定路径（不是指定驱动器路径部分）的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
VBS教程：方法-GetFile 方法
GetFile 方法返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
VBS教程：方法-GetExtensionName 方法
GetExtensionName 方法返回字符串，该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
VBS教程：方法-GetDriveName 方法
GetDriveName 方法返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
VBS教程：方法-GetDrive 方法
GetDrive 方法返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
VBS教程：方法-GetBaseName 方法
GetBaseName 方法返回字符串，其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
VBS教程：方法-GetAbsolutePathName 方法
GetAbsolutePathName 方法从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
VBS教程：方法-FolderExists 方法
FolderExists 方法如果指定的文件夹存在，则返回 True；否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
VBS教程：方法-FileExists 方法
FileExists 方法如果指定的文件存在返回 True；否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS

首页

博学

6Ren·AI

商城

python - 导入 500GB 文本文件的最快方法，只取需要的部分