- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个奇怪的问题。我正在加载一个巨大的文件(3.5G)并从中制作字典并进行一些处理。一切都完成后,我的脚本不会立即终止,它会在一段时间后终止。我认为这可能是由于内存释放,还有其他原因吗??我很感激任何意见。我怎样才能让我的脚本运行得更快?
这是相应的代码:
类文件处理器:
def __init__(self):
self.huge_file_dict = self.upload_huge_file()
def upload_huge_file(self):
d = defaultdict(list)
f= codecs.open('huge_file', 'r', encoding='utf-8').readlines()
for line in f:
l = line.strip()
x,y,z,rb,t = l.split()
d[rb].append((x,y,z,t))
return d
def do_some_processing(self, word):
if word in self.huge_file_dict:
do sth with self.huge_file_dict[word]
最佳答案
我的猜测是你可怕的减速,直到你的程序完成后才恢复,这是由于使用了比你实际拥有的更多的内存,这导致你的操作系统开始将 VM 页面交换进出磁盘。一旦发生足够多的交换,您最终会陷入“交换 hell ”,其中很大一部分内存访问涉及磁盘读取甚至磁盘写入,这需要更多的时间,并且您的系统直到在您最终释放所有内存后几秒钟。
显而易见的解决方案是不要使用太多内存。
tzaman's answer ,避免 readlines()
,将消除一些内存。一个 3.5GB 文件中所有行的巨大列表在 Python 3.4 或 2.7 上至少需要 3.5GB(但实际上至少比这多 20%),在 3.0-3.3 上可能是 2 倍或 4 倍。
但是字典会比列表更大,你需要它,对吧?
嗯,不,你可能不知道。将 dict 保存在磁盘上并根据需要获取值可能听起来很慢,但它可能仍然比将其保存在虚拟内存中快得多,如果虚拟内存必须不断地来回交换到磁盘。
您可能需要考虑使用简单的 dbm
,或更强大的键值数据库(谷歌“NoSQL key value”用于某些选项),或 sqlite3
数据库,甚至是基于服务器的 SQL 数据库,如 MySQL。
或者,如果您可以将所有内容保存在内存中,但以更紧凑的形式保存,则两全其美。
我注意到在您的示例代码中,您对字典所做的唯一事情就是检查 self.huge_file_dict 中的单词
。如果这是真的,那么您可以使用 set
而不是 dict
并且不将所有这些值都保存在内存中。这应该会减少大约 80% 的内存使用量。
如果您经常需要键,但偶尔需要值,您可能需要考虑一个字典,它只是将键映射到索引到您可以根据需要从磁盘读取的内容(例如,具有固定长度字符串的文件,然后你可以 mmap
和切片)。
或者您可以将值保存在 Pandas 框架中,这将比原生 Python 存储更紧凑——可能足以产生差异——并使用字典映射键到索引。
最后,您可以在不实际减少内存量的情况下减少交换量。将一个巨大的排序列表一分为二,而不是访问一个巨大的字典,可能会提供更好的内存局部性,这取决于你的单词模式。
关于Python 脚本在完成很长时间后不会终止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30083188/
这个问题在这里已经有了答案: Isn't an Int64 equal to a long in C#? (2 个答案) 关闭 9 年前。 它不应该是一个整数类型吗? 这样,一些使用 int 的函数
当我遇到一些我想知道的事情时,我正忙着解析一个二进制文件。 Stream.Position属性的类型为Int64或long。为什么是这样?因为流中的位置不能为负,所以使用 UInt64 不是更有意义吗
所以第一部分是我从用户那里获得输入,在本例中,输入是“1”作为从另一个函数接收的字符值。 printf ("\nPlease enter 1, 2, 3 or q: "); option =
我正在尝试使用以下代码从 REST 服务返回 JSON: $categories = $categoriesController->listAll(); if($categories){ hea
我阅读了文档,它说 long 是 %li,但打印输出返回为 -2147024891。是什么赋予了? 最佳答案 您甚至没有提供要打印的号码,但我猜您已经无意中发现了签名打印和未签名打印之间的区别。 使用
我正在创建自定义购物车,我正在构建一个查询,该查询从检索我刚刚保存到购物车表中的 session_id 开始。我知道这个值被保存了,我在 mysql 命令行运行这个查询,它返回我需要的但我没有将值放入
我有一个包含 textView 的 scrollView。如果文本很长并且不适合屏幕,我想增加 textView 高度(我想我可以通过添加 NSLayoutConstraint outlet 并修改它
我有一个基本的数据库处理程序类,其中有一个使用 PDO::FETCH_ASSOC 参数返回结果集的公共(public)方法: public function resultSet() { $th
在后台线程中,我调用 PublishSubject.onNext(); 并在主线程中通过 subscribe(PublishSubject.filter(message -> message.getI
我想知道为什么 Amazon Web Services 控制台登录页面有这么长的 url?为什么不只发布数据而不显示其中包含大量数据的冗长 url。以这种方式实现有什么充分的理由吗? 最佳答案 我认为
这个问题在这里已经有了答案: Can I mix MySQL APIs in PHP? (4 个答案) 关闭 6 年前。 希望我犯了一个快速而明显的错误,我浏览了 previous question
我得到了答案:如果我禁用了cookie,那么使用URL重定向我可以传递JSESSIONID,但我的URL已经很长,因为我使用它有约束的GET方法。那怎么办我应该使用我的 session 吗?我希望我的
目前,当我使用 DOMDocument 对象并调用 saveHTML() 时,它会自动添加一些我不需要的 html 标签。我尝试了此处建议的解决方案 ( https://stackoverflow.c
我是一名优秀的程序员,十分优秀!