gpt4 book ai didi

python - 确保对象列表仅包含唯一项的大多数 pythonic 方法

转载 作者:行者123 更新时间:2023-11-28 19:37:49 26 4
gpt4 key购买 nike

我有一个对象列表 (Foo)。 Foo 对象有几个属性。 Foo 对象的一个​​实例等效于(等于)Foo 对象的另一个实例当且仅当所有属性都相等。

我有以下代码:

class Foo(object):
def __init__(self, myid):
self.myid=myid

def __eq__(self, other):
if isinstance(other, self.__class__):
print 'DEBUG: self:',self.__dict__
print 'DEBUG: other:',other.__dict__
return self.__dict__ == other.__dict__
else:
print 'DEBUG: ATTEMPT TO COMPARE DIFFERENT CLASSES:',self.__class__,'compared to:', other.__class__
return False


import copy

f1 = Foo(1)
f2 = Foo(2)
f3 = Foo(3)
f4 = Foo(4)
f5 = copy.deepcopy(f3) # overkill here (I know), but needed for my real code

f_list = [f1,f2,f3,f4,f5]

# Surely, there must be a better way? (this dosen't work BTW!)
new_foo_list = list(set(f_list))

在处理简单类型(int、float、string - 以及令人惊讶的 datetime.datetime 类型)时,我经常使用上面的这个小(反?)“模式”(转换为 set 和返回),但它已经被裁掉了使用更复杂的数据类型——如上面的 Foo。

那么,我怎样才能将上面的列表 f1 更改为唯一项目的列表 - 而不必遍历每个项目并检查它是否已经存在于某个临时缓存等中?

执行此操作最符合 Python 风格的方法是什么?

最佳答案

首先,我要强调的是,使用set当然不是反模式。 set 可以在 O(n) 时间内消除重复项,这是您能做的最好的,并且比将每个项目与其他项目进行比较的原始 O(n^2) 解决方案要好得多。它甚至比排序更好——实际上,您的数据结构可能甚至没有自然顺序,在这种情况下排序没有多大意义。

在这种情况下使用集合的问题是您必须定义自定义 __hash__ 方法。其他人也说过这个。但是您是否可以轻松做到这一点是一个悬而未决的问题——这取决于您尚未告诉我们的实际类(class)的详细信息。例如,如果上面的 Foo 对象的任何属性不可哈希,那么创建自定义哈希函数将很困难,因为您不仅要为 编写自定义哈希Foo 对象,您还必须为所有其他类型的对象编写自定义哈希!

所以如果你想要一个结论性的答案,你需要告诉我们更多关于你的类(class)有什么样的属性。但我可以提供一些推测。

假设可以为 Foo 对象编写哈希函数,而且还假设 Foo 对象是可变的,所以真的不应该__hash__ 方法,正如 Niklas B. 指出的,这是一种可行的方法。创建一个函数 freeze,给定 Foo 的可变实例,返回 Foo 中数据的不可变集合。例如,假设 Foo 中有一个 dict 和一个 listfreeze 返回一个 tuple,其中包含 tupletuple(表示 dict)和另一个 tuple(代表 list)。 freeze 函数应具有以下属性:

freeze(a) == freeze(b)

当且仅当

a == b

现在通过以下代码传递您的列表:

dupe_free = dict((freeze(x), x) for x in dupe_list).values()

现在你在 O(n) 时间内有了一个 dupe free list。 (事实上​​ ,在添加此建议后,我看到 fraxel 提出了类似的建议;但我认为使用自定义函数——甚至是方法——(x.freeze(), x) - - 是更好的方法,而不是像他那样依赖 __dict__ ,这可能是不可靠的。这同样适用于你的自定义 __eq__ 方法,IMO - __dict__ 由于各种原因我无法进入这里并不总是安全的捷径。)

另一种方法是首先只使用不可变对象(immutable对象)!例如,您可以使用 namedtuple秒。这是从 python 文档中窃取的示例:

>>> Point = namedtuple('Point', ['x', 'y'])
>>> p = Point(11, y=22) # instantiate with positional or keyword arguments
>>> p[0] + p[1] # indexable like the plain tuple (11, 22)
33
>>> x, y = p # unpack like a regular tuple
>>> x, y
(11, 22)
>>> p.x + p.y # fields also accessible by name
33
>>> p # readable __repr__ with a name=value style
Point(x=11, y=22)

关于python - 确保对象列表仅包含唯一项的大多数 pythonic 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10535492/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com