gpt4 book ai didi

python - 根据 .CSV 文件中字典键的出现次数进行计数

转载 作者:太空宇宙 更新时间:2023-11-03 19:10:01 24 4
gpt4 key购买 nike

我有一个看起来像这样的字典:

{100002: "['Apple', 'M', 'R', '500001', 'Fruit', '90']", 100004: "['Banana', 'M', 'Y', '500001', 'Fruit', '75']"}

键是整数,值是字符串。

我有一个如下所示的 .csv 文件:

100001,1
100001,1
100001,2
100002,1
100002,1
100002,3
100002,3
100003,1
100003,4
100004,2
100004,3
100004,3

我想计算给定键的第二列中每个数字的出现次数,并将该计数添加到我的字典中。因此,对于这个样本,100001 的计数为 2 代表 1,1 代表 2,100002 的计数为 2 代表 1,2 代表 3,100003 的计数为 1 代表 1,1 代表 4,100004 的计数为 1 代表 1,1 代表 4。 1 代表 2,2 代表 3。虽然这个 .csv 文件包含各种键的数据(其中我的字典中的键是一个子集),但我想将这些计数附加到我的字典中,以便它看起来像像这样(为每个键添加 4 个新值,每个值按顺序表示数字 1-4 的计数。)

{100002: "['Apple', 'M', 'R', '500001', 'Fruit', '90', '2', '0', '2', '0']", 100004: "['Banana', 'M', 'Y', '500001', 'Fruit', '75', '0', '1', '2', '0']"}

这 4 个添加的部分是数字 1-4 按顺序的计数,因此 100002 有 '2', '0', '2', '0' 因为在 .csv 文件中2 行 100002,1,但 0 行 100002,2 和 2 行 100002,3,但 0 行 100002 ,4.

我的问题有两个部分。 1) 如何计算 .csv 文件中某个键后跟 1-4 之间的数字的次数,以便我有 4 次计数(数字 1-4 各计数一次)? 2)如何将这些计数添加到我的字典中?

答案:

根据我所接受的答案,我制作了这个。它比我想要的要丑一点,但我设法用它完成了工作。

dd = defaultdict(lambda: defaultdict(int))
with open('AgentsCorpLevel.csv') as fin:
csvin = csv.reader(fin)
for row in csvin:
if int(row[0]) in MyDict.keys():
dd[int(row[0])][row[1]] += 1
print dd
dicts = MyDict,dd
#print dicts
FullDict = {}
PartlyCleanedDict = {}
CleanedDict = {}
TwoTypeDict = {k:[d.get(k) for d in dicts] for k in {k for d in dicts for k in d}}
for key, value in TwoTypeDict.iteritems():
FullDict.setdefault((int(key)), str(value))
for key, value in FullDict.iteritems():
PartlyCleanedDict.setdefault((int(key)), value.translate(None, "[]{()\/\'\"<>").replace('}',',}'))
for key, value in PartlyCleanedDict.iteritems():
CleanedDict.setdefault((int(key)), value.replace(',defaultdicttype int', ''))
print CleanedDict

ddprint 看起来像这样

defaultdict(<function <lambda> at 0x00000000025C3518>, {1000164: defaultdict(<ty
pe 'int'>, {'1': 12, '3': 5, '2': 17, '4': 10}), 1000103: defaultdict(<type 'int
'>, {'1': 3, '3': 3, '2': 3, '4': 3}), 1000137: defaultdict(<type 'int'>, {'1':
5, '3': 4, '2': 7, '4': 1}), 1000140: defaultdict(<type 'int'>, {'1': 28, '3': 2
6, '2': 33, '4': 8}), 1000143: defaultdict(<type 'int'>, {'1': 1, '3': 3, '2': 1
, '4': 1}), 1000149: defaultdict(<type 'int'>, {'1': 6, '3': 7, '2': 9, '4': 6})
, 1000150: defaultdict(<type 'int'>, {'1': 13, '3': 11, '2': 22, '4': 12}), 1000
132: defaultdict(<type 'int'>, {'1': 2, '3': 4, '2': 4, '4': 1}), 1000155: defau
ltdict(<type 'int'>, {'1': 10, '3': 4, '2': 2, '4': 3}), 1000158: defaultdict(<t
ype 'int'>, {'1': 6, '3': 1, '2': 7, '4': 5})})

不幸的是,我尝试完全“清理”生成的 CleanedDict 并没有成功,因为这里是 CleanedDict 的 print 的示例(请注意,我在这里只给出了 3 个键,我更改了名称以适应我的样本中的水果和蔬菜主题。

{1000132: 'Kiwi, S, B, 500006, Fruit, 3n, defaultdicttype int, 1: 2, 3: 4, 2: 4, 4: 1,}', 1000103: 'Iceberg Lettuce, M, G, 500004, Vegetable, 2n, defaultdicttype int, 1: 3, 3: 3, 2: 3, 4: 3,}',1000137: 'Pineapple, M, Y, 500006, Fruit, 45n,defaultdicttype int, 1: 5, 3: 4, 2: 7, 4: 1,}'}

最佳答案

您可以使用嵌套的 defaultdict - 我会将 4 个以上值的微调和处理以及确切的格式设置等留给您...

import csv
from collections import defaultdict

d = {100002: "['Apple', 'M', 'R', '500001', 'Fruit', '90']", 100004: "['Banana', 'M', 'Y', '500001', 'Fruit', '75']"}
dd = defaultdict(lambda: defaultdict(int))
with open('test.csv') as fin:
csvin = csv.reader(fin)
for row in csvin:
dd[int(row[0])][row[1]] += 1

for key in (key for key in dd if key in d):
counts = [0] * 4
for idx, val in dd[key].iteritems():
counts[int(idx) - 1] = int(val)
print key, d[key], counts

# 100002 ['Apple', 'M', 'R', '500001', 'Fruit', '90'] [2, 0, 2, 0]
# 100004 ['Banana', 'M', 'Y', '500001', 'Fruit', '75'] [0, 1, 2, 0]

关于python - 根据 .CSV 文件中字典键的出现次数进行计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13302347/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com