Python 脚本在完成很长时间后不会终止-6ren

Python 脚本在完成很长时间后不会终止

转载作者：行者123 更新时间：2023-11-28 20:42:43

25

4

我有一个奇怪的问题。我正在加载一个巨大的文件(3.5G)并从中制作字典并进行一些处理。一切都完成后，我的脚本不会立即终止，它会在一段时间后终止。我认为这可能是由于内存释放，还有其他原因吗？？我很感激任何意见。我怎样才能让我的脚本运行得更快？

这是相应的代码:

类文件处理器:

    def __init__(self):
            self.huge_file_dict = self.upload_huge_file()


    def upload_huge_file(self):
            d = defaultdict(list)
            f=  codecs.open('huge_file', 'r',  encoding='utf-8').readlines()
            for line in f:
                    l = line.strip()
                    x,y,z,rb,t = l.split()
                    d[rb].append((x,y,z,t))
            return d

    def do_some_processing(self, word):
           if word in self.huge_file_dict:
                    do sth with  self.huge_file_dict[word]

最佳答案

我的猜测是你可怕的减速，直到你的程序完成后才恢复，这是由于使用了比你实际拥有的更多的内存，这导致你的操作系统开始将 VM 页面交换进出磁盘。一旦发生足够多的交换，您最终会陷入“交换 hell ”，其中很大一部分内存访问涉及磁盘读取甚至磁盘写入，这需要更多的时间，并且您的系统直到在您最终释放所有内存后几秒钟。

显而易见的解决方案是不要使用太多内存。

tzaman's answer ，避免 readlines()，将消除一些内存。一个 3.5GB 文件中所有行的巨大列表在 Python 3.4 或 2.7 上至少需要 3.5GB(但实际上至少比这多 20%)，在 3.0-3.3 上可能是 2 倍或 4 倍。

但是字典会比列表更大，你需要它，对吧？

嗯，不，你可能不知道。将 dict 保存在磁盘上并根据需要获取值可能听起来很慢，但它可能仍然比将其保存在虚拟内存中快得多，如果虚拟内存必须不断地来回交换到磁盘。

您可能需要考虑使用简单的 dbm ，或更强大的键值数据库(谷歌“NoSQL key value”用于某些选项)，或 sqlite3数据库，甚至是基于服务器的 SQL 数据库，如 MySQL。

或者，如果您可以将所有内容保存在内存中，但以更紧凑的形式保存，则两全其美。

我注意到在您的示例代码中，您对字典所做的唯一事情就是检查 self.huge_file_dict 中的单词。如果这是真的，那么您可以使用 set 而不是 dict 并且不将所有这些值都保存在内存中。这应该会减少大约 80% 的内存使用量。

如果您经常需要键，但偶尔需要值，您可能需要考虑一个字典，它只是将键映射到索引到您可以根据需要从磁盘读取的内容(例如，具有固定长度字符串的文件，然后你可以 mmap 和切片)。

或者您可以将值保存在 Pandas 框架中，这将比原生 Python 存储更紧凑——可能足以产生差异——并使用字典映射键到索引。

最后，您可以在不实际减少内存量的情况下减少交换量。将一个巨大的排序列表一分为二，而不是访问一个巨大的字典，可能会提供更好的内存局部性，这取决于你的单词模式。

关于Python 脚本在完成很长时间后不会终止，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30083188/

25

4

0

文章推荐： python - 如何删除 Python 中的行尾？

文章推荐： python - 删除python字典中的引号

文章推荐： python - 在 python 中测试 while 循环

文章推荐： php - json 解码不工作

c# - 为什么 Int64.MaxValue 很长？
这个问题在这里已经有了答案: Isn't an Int64 equal to a long in C#? (2 个答案) 关闭 9 年前。它不应该是一个整数类型吗？这样，一些使用 int 的函数
c# - 为什么 Stream.Position 很长
当我遇到一些我想知道的事情时，我正忙着解析一个二进制文件。 Stream.Position属性的类型为Int64或long。为什么是这样？因为流中的位置不能为负，所以使用 UInt64 不是更有意义吗
c - 在我调用函数来扫描某些内容后，我的程序无法继续运行？有人能找出问题所在吗？ (很长，但请帮忙!)
所以第一部分是我从用户那里获得输入，在本例中，输入是“1”作为从另一个函数接收的字符值。 printf ("\nPlease enter 1, 2, 3 or q: "); option =
php - json_encode() 期望参数 2 很长，字符串给定
我正在尝试使用以下代码从 REST 服务返回 JSON: $categories = $categoriesController->listAll(); if($categories){ hea
c - 我如何 printf 很长？这不应该工作吗？ %li
我阅读了文档，它说 long 是 %li，但打印输出返回为 -2147024891。是什么赋予了？最佳答案您甚至没有提供要打印的号码，但我猜您已经无意中发现了签名打印和未签名打印之间的区别。使用
php - mysqli::query() 期望参数 2 很长，给出字符串
我正在创建自定义购物车，我正在构建一个查询，该查询从检索我刚刚保存到购物车表中的 session_id 开始。我知道这个值被保存了，我在 mysql 命令行运行这个查询，它返回我需要的但我没有将值放入
ios - 如果 TextView 很长，则启用 ScrollView 滚动
我有一个包含 textView 的 scrollView。如果文本很长并且不适合屏幕，我想增加 textView 高度(我想我可以通过添加 NSLayoutConstraint outlet 并修改它
php - PDOStatement::fetchAll() 期望参数 1 很长，给定字符串？
我有一个基本的数据库处理程序类，其中有一个使用 PDO::FETCH_ASSOC 参数返回结果集的公共(public)方法: public function resultSet() { $th
android - 调用 PublishSubject.onNext() 和接收它之间的 Rx Interval 很长
在后台线程中，我调用 PublishSubject.onNext(); 并在主线程中通过 subscribe(PublishSubject.filter(message -> message.getI
security - 为什么 Amazon Web Services 的登录页面 URL 很长
我想知道为什么 Amazon Web Services 控制台登录页面有这么长的 url？为什么不只发布数据而不显示其中包含大量数据的冗长 url。以这种方式实现有什么充分的理由吗？最佳答案我认为
php - 错误 PDOStatement::bindParam() 期望参数 3 很长，给定的字符串
这个问题在这里已经有了答案: Can I mix MySQL APIs in PHP? (4 个答案) 关闭 6 年前。希望我犯了一个快速而明显的错误，我浏览了 previous question
java - 我该怎么办 session URL 很长，我无法附加 JSESSIONID=389729387392。解决方案是什么？
我得到了答案:如果我禁用了cookie，那么使用URL重定向我可以传递JSESSIONID，但我的URL已经很长，因为我使用它有约束的GET方法。那怎么办我应该使用我的 session 吗？我希望我的
php - DOMDocument::loadHTML() 期望参数 2 很长，尝试使用 LIBXML_HTML_NOIMPLIED 参数时给出的字符串
目前，当我使用 DOMDocument 对象并调用 saveHTML() 时，它会自动添加一些我不需要的 html 标签。我尝试了此处建议的解决方案 ( https://stackoverflow.c

首页

博学

6Ren·AI

商城

Python 脚本在完成很长时间后不会终止