- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个巨大的特征向量文件(1.2GB),保存为 csv 文件。为了遍历这些行,我创建了一个 python 类,该类将批量行从巨型文件加载到内存中,一次一批。
为了让这个类知道在文件中到底从哪里读取以获得一批batch_size完整行(假设batch_size = 10,000),在第一次使用巨型文件时,这个类会遍历整个文件一次,并注册每行的偏移量,并将这些偏移量保存到帮助文件中,以便稍后可以“file.seek(starting_offset);batch = file.read(num_bytes)”读取下一批行。
首先,我通过这种方式实现了线偏移的注册:
offset = 0;
line_offsets = [];
for line in self.fid:
line_offsets.append(offset);
offset += len(line);
它与 Giant_file1 配合得很好。
但是后来我在我制作的这个类的帮助下处理了这些特征并创建了giant_file2(具有标准化特征)。接下来,当我想从 Giant_file2 读取批量行时,它失败了,因为它读取的批处理字符串不在正确的位置(例如,读取类似“-00\n15.467e-04,...”的内容) ”而不是“15.467e-04,...\n”)。
所以我尝试将线偏移计算部分更改为:
offset = 0;
line_offsets = [];
while True:
line = self.fid.readline();
if (len(line) <= 0):
break;
line_offsets.append(offset);
offset = self.fid.tell();
主要的变化是我注册的偏移量是从 fid.tell() 的结果中获取的,而不是行的累积长度。
此版本在 Giant_file2 上运行良好,但在 Giant_file1 上失败。
随着我进一步研究,我感觉函数eek()、tell() 和read() 彼此不一致。例如:
fid = file('giant_file1.csv');
fid.readline();
>>>'0.089,169.039,10.375,-30.838,59.171,-50.867,13.968,1.599,-26.718,0.507,-8.967,-8.736,\n'
fid.tell();
>>>67L
fid.readline();
>>>'15.375,91.43,15.754,-147.691,54.234,54.478,-0.435,32.364,4.64,29.479,4.835,-16.697,\n'
fid.seek(67);
fid.tell();
>>>67L
fid.readline();
>>>'507,-8.967,-8.736,\n'
这里有一些矛盾:当我定位(根据 fid.tell())在字节 67 时,一旦读取行是一回事,而第二次(再次当 fid.tell() 报告我是位于字节 67) 读取的行不同。
我不能相信tell()和seek()会将我置于所需的位置以从所需行的开头读取。另一方面,当我使用(使用giant_file1)字符串的长度作为seek()的引用时,我得到了正确的位置:
fid.seek(0);
line = fid.readline();
fid.tell();
>>>87L
len(line);
>>>86
fid.seek(86);
fid.readline();
>>>'15.375,91.43,15.754,-147.691,54.234,54.478,-0.435,32.364,4.64,29.479,4.835,-16.697,\n'
那么这是怎么回事?
我能想到的giant_file1和giant_file2之间的唯一区别是,在giant_file1中,值是用小数点写入的(例如-0.435),而在giant_file2中,它们都是科学格式的(例如-4.350e-01)。我不认为它们中的任何一个都是用 unicode 编码的(我认为是这样,因为我用简单的 file.read() 读取的字符串似乎是可读的。我如何确定?)。
非常感谢您的帮助,包括解释、原因想法以及可能的解决方案(或解决方法)。
谢谢你,尤纳坦。
最佳答案
我认为您遇到了换行问题。检查giant_file1.csv是否以\n或\r\n结尾。如果以文本模式打开文件,文件将仅返回以\n结尾的行,并丢弃多余的\r。因此,当您查看返回的行的长度时,它将比实际文件位置减 1(这不仅消耗了\n,还消耗了\r\n)。当然,随着您阅读更多行,这些错误将会累积。
解决方案是以二进制模式打开文件。在这种模式下,没有\r\n ->\n 减少,因此您的行长度计数将与您的文件tell( ) 查询保持一致。
我希望能够为您解决这个问题 - 因为这是一个简单的解决方法。 :) 祝您的项目顺利,编码愉快!
关于python,寻找,讲述,阅读。从巨大的 csv 文件中读取行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11036603/
题: 是否有一种简单的方法可以获取正在运行的应用程序中泄漏的资源类型列表? IOW 通过连接到应用程序? 我知道 memproof 可以做到,但它会减慢速度,以至于应用程序甚至无法持续一分钟。大多数任
正确地说下面的代码会将自定义日志发送到.net核心中的Docker容器的stdout和stderr吗? console.Writeline(...) console.error(..) 最佳答案 如果
我想将一个任务多次重复,放入 for 循环中。我必须将时间序列对象存储为 IExchangeItem , openDA 中的一个特殊类(数据同化软件)。 这是任务之一(有效): HashMap ite
我需要从文件中读取一个数组。该数组在文件中不是连续排序的,必须跳转“偏移”字节才能获得下一个元素。假设我读取一个非常大的文件,什么更有效率。 1) 使用增量相对位置。 2)使用绝对位置。 选项 1:
我有一个安装程序(使用 Advanced Installer 制作)。我有一个必须与之交互的应用程序,但我不知道如何找到该安装的 MSIHANDLE。我查看了 Microsoft 引用资料,但没有发现
我在替换正则表达式中的“joe.”等内容时遇到问题。这是代码 var objects = new Array("joe","sam"); code = "joe.id was here so was
我有 A 类。A 类负责管理 B 对象的生命周期,它包含 B 对象的容器,即 map。 ,每个 B 对象都包含 C 对象的容器,即 map .我有一个全局 A 对象用于整个应用程序。 我有以下问题:我
任何人都可以告诉我在哪里可以找到 freeImage.so 吗?我一直在努力寻找相同的东西但没有成功..任何帮助将不胜感激。我已经尝试将 freeimage.a 转换为 freeImage .so 并
在单元测试期间,我想将生成的 URL 与测试中定义的静态 URL 进行比较。对于此比较,最好有一个 TestCase.assertURLEqual 或类似的,它可以让您比较两个字符串格式的 URL,如
'find ./ -name *.jpg' 我正在尝试优化上述语句的“查找”命令。 在查找实现中处理“-name”谓词的方法。 static boolean pred__name __common (
请原谅我在这里的困惑,但我已经阅读了关于 python 中的 seek() 函数的文档(在不得不使用它之后),虽然它帮助了我,但我仍然对它的实际含义有点困惑,任何非常感谢您的解释,谢谢。 最佳答案 关
我在我正在使用的库中找到了这个语句。它应该检查集群中的当前节点是否是领导者。这是语句:(!(cluster.Leader?.IsRemote ?? true)) 为什么不直接使用 (cluster.L
我发现 JsonParser 在 javax.json.stream 中,但我不知道在哪里可以找到它。谁能帮帮我? https://docs.oracle.com/javaee/7/api/javax
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 6年前关闭。 Improve this questi
如果 git 存储库中有新的更改可用,我有一个多分支管道作业设置为每分钟由 Jenkinsfile 构建。如果分支名称是某种格式,我有一个将工件部署到环境的步骤。我希望能够在每个分支的基础上配置环境,
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
我想我刚刚意识到当他们不让我使用 cfdump 时我的网络主机是多么的限制。这其实有点让我生气,真的,dump 有什么害处?无论如何,我的问题是是否有人编写了一个 cfdump 替代方案来剔除复杂类型
任务:我有多个资源需要在一个 HTTP 调用中更新。 要更新的资源类型、字段和值对于所有资源都是相同的。 示例:通过 ID 设置了一组汽车,需要将所有汽车的“状态”更新为“已售出”。 经典 RESTF
场景:表中有 2 列,数据如下例所示。对于“a”列的相同值,该表可能有多个行。 在示例中,考虑到“a”列,“1”有三行,“2”有一行。 示例表“t1”: |a|b ||1|1.1||1|1.2||1
我有一个数据框: Date Price 2021-01-01 29344.67 2021-01-02 32072.08 2021-01-03 33048.03 2021-01-04 32084.
我是一名优秀的程序员,十分优秀!