大数据集的Python defaultdict-6ren

大数据集的Python defaultdict

转载作者：太空狗更新时间：2023-10-29 20:25:36

28

4

我正在使用 defaultdict 来存储数百万个短语，所以我的数据结构看起来像 mydict['string'] = set(['other', 'strings'])。它似乎适用于较小的集合，但当我按下任何超过 1000 万个键时，我的程序就会崩溃，并显示有用的消息 Process killed。我知道 defaultdict 占用大量内存，但是否有使用 defaultdict 进行存储的优化方法，或者我是否必须查看其他数据结构，如 numpy 数组？

谢谢

最佳答案

如果您打算将单个 Python 进程留在内存中，那么您将不得不放弃 dict 数据类型——正如您所指出的，它具有出色的运行时性能特征，但它需要大量内存才能让您到达那里。

真的，我认为@msw 的评论和@Udi 的回答是正确的——要扩展，您应该查看磁盘上或至少某种进程外存储，可能 RDBMS 是最简单的开始吧。

但是，如果您确定需要保留在内存中和进程中，我建议您使用排序列表来存储您的数据集。您可以在 O(log n) 时间内进行查找，在常数时间内进行插入和删除，您可以自己包装代码，这样使用起来就很像 defaultdict。这样的事情可能会有所帮助(除了底部的测试之外没有调试):

import bisect

class mystore:
    def __init__(self, constructor):
        self.store = []
        self.constructor = constructor
        self.empty = constructor()

    def __getitem__(self, key):
        i, k = self.lookup(key)
        if k == key:
            return v
        # key not present, create a new item for this key.
        value = self.constructor()
        self.store.insert(i, (key, value))
        return value

    def __setitem__(self, key, value):
        i, k = self.lookup(key)
        if k == key:
            self.store[i] = (key, value)
        else:
            self.store.insert(i, (key, value))

    def lookup(self, key):
        i = bisect.bisect(self.store, (key, self.empty))
        if 0 <= i < len(self.store):
            return i, self.store[i][0]
        return i, None

if __name__ == '__main__':
    s = mystore(set)
    s['a'] = set(['1'])
    print(s.store)
    s['b']
    print(s.store)
    s['a'] = set(['2'])
    print(s.store)

关于大数据集的Python defaultdict，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25108014/

28

4

0

文章推荐： python - 我使用什么 scipy 统计测试来比较样本均值？

文章推荐： c# - 有没有用 C# 编写的 ANTLR 的有效替代方案？

文章推荐： c# - 如何使用C#或Java发送SYN包

文章推荐： Python跨平台隐藏文件

python - Defaultdict(defaultdict) 用于文本分析
从文件中读取并清理的文本: ['the', 'cat', 'chased', 'the', 'dog', 'fled'] 挑战是返回一个字典，其中每个单词作为值，可以跟随它的单词作为键，并计算它跟随它
python - 如何将 defaultdicts [of defaultdicts] 的 defaultdict 转换为 dicts [of dicts] 的 dict？
使用 this answer ，我创建了 defaultdict 的 defaultdict。现在，我想把那个嵌套很深的 dict 对象变回一个普通的 python dict。 from collec
python - 构建一个值为 defaultdict 的 defaultdict
我的应用程序说参数必须是可调用的或无类型有什么特别的原因吗？我很确定这就是您使用 defaultdict 作为其值实例化 defaultdict 的方式。 dict = defaultdict(def
python - 在设置项目时充当 defaultdict 但在获取项目时不充当 defaultdict 的嵌套字典
我想实现一个类似 dict 的数据结构，它具有以下属性: from collections import UserDict class TestDict(UserDict): pass tes
python - 将 defaultdict 键值与另一个 defaultdict 进行比较
我有两个 defaultdict : defaultdict(, {'a': ['OS', 'sys', 'procs'], 'b': ['OS', 'sys']}) defaultdict(, {'
python - 如何将 defaultdict(Set) 转换为 defaultdict(list)？
我有一个defaultdict(Set): from sets import Set from collections import defaultdict values = defaultdict(
大数据集的Python defaultdict
我正在使用 defaultdict 来存储数百万个短语，所以我的数据结构看起来像 mydict['string'] = set(['other', 'strings'])。它似乎适用于较小的集合，但当
不插入缺失值的Python defaultdict
所以 defaultdict documentation提到，如果缺少某个项目，则 default_factory 返回的值“将插入字典中作为键，然后返回。”这在大多数情况下都很棒，但在这种情况下我真
Python 过滤器 defaultdict
我有一个默认的列表列表，但我基本上想这样做: myDefaultDict = filter(lambda k: len(k)>1, myDefaultDict) 除了它似乎只适用于列表。我能做什么？
python - Defaultdict/没有足够的值来解压
这可能是一个愚蠢的问题，但是:我的代码运行良好，直到我尝试添加 ml.我尝试了几种方式但是 init_dict = [] with open("example.csv", "r") as new_da
python - 如何在Python中获取dict列表而不是使用collection.defaultdict
我正在尝试将列表递归地转换为嵌套字典，如下所示:- 给定输入:- parse_list = ['A','B','C','D'] 所需输出:- data = [ {'name': 'A',
python - 添加字典而不是覆盖 - defaultdict
我有一个名为“n”的字典，其中有一个键值关系(字典中的字典)。此处的 key 将是tenant_id (b77865b66fd544e0841aa7dbca8bdc97, 7b73b9644e824
Python defaultdict 深层嵌套数据结构
我有一个 Excel 数据集列表，其中包含以下某些信息: Category Subcategory Name Main Dish Noodle Tomato Noodl
python - DefaultDict 在两种情况下的行为都不同
我有以下内容: a = [{ "_id" : { "reportId" : "5a27cda63fff647c33a14b31" }, "amount" : 3000 }, { "_id"
python: defaultdict 不适用于字符串格式
这很简单: 'foo {bar}'.format(**{'bar': 0}) 这不起作用，产生一个 KeyError: from collections import defaultdict d =
python - 合并嵌套的 defaultdict
我有这个: dict1 = defaultdict(lambda:defaultdict(list)) dict1['rl1']['sh1'] = ['a','b'] dict1['rl1']['sh
python - 混淆使用带赋值和不带赋值的 defaultdicts
我正在尝试在 python 中使用 defalultdict 和不赋值的行为数据如下: data = {'APPLaunch_ftrace': [63.3, 24.5, 8.4, 2.3, 0.9,
python - 遍历字典列表并从列表中找到匹配的元素并将匹配键的值附加到 defaultdict
我有一个字典列表。我们称它为:list_of_dict。列表中的词典采用以下形式: {'a' : 1, 'b' : 5, 'c' : 3, 'd' : 6} 和 {'a' : 3, 'f' : 2,
python - 使用关键字解包格式化 defaultdict **
我想使用关键字解包运算符 ** 格式化和打印字典中的数据。格式字符串可能引用了很多关键字，而字典可能没有所有需要的关键字。对于缺少的键，我想使用字符串“N/A”作为默认值。我想要一个聪明的解决方案
python - 根据值过滤 defaultdict
考虑以下默认字典: data = defaultdict(list) data['key1'] = [{'check': '', 'sth1_1':'k1', 'sth1_2':'k2'}] data

首页

博学

6Ren·AI

商城

大数据集的Python defaultdict