- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我一直在研究 Python Challenge 中提出的问题.其中一个问题要求从一堆字符中筛选出最稀有的字符。
我的方法是从文本文件中读取字符,将字符/出现作为键/值对存储在字典中。按值对字典进行排序,并反转字典,其中出现是键,字符串是值。假设最稀有的字符只出现一次,我返回这个倒排字典的键等于 1 的值。
输入(funkymess.txt)是这样的:
%%$@$^_#)^)&!_+]!*@&^}@@%%+$&[(_@%+%$*^@ $^!+]!&#)*}{}}!]$[%}@[{@#_^{*......
代码如下:
from operator import itemgetter
characterDict = dict()
#put the characters in a dictionary
def putEncounteredCharactersInDictionary(lineStr):
for character in lineStr:
if character in characterDict:
characterDict[character] = characterDict[character]+1
else:
characterDict[character] = 1
#Sort the character dictionary
def sortCharacterDictionary(characterDict):
sortCharDict = dict()
sortsortedDictionaryItems = sorted(characterDict.iteritems(),key = itemgetter(1))
for key, value in sortsortedDictionaryItems:
sortCharDict[key] = value
return sortCharDict
#invert the sorted character dictionary
def inverseSortedCharacterDictionary(sortedCharDict):
inv_map = dict()
for k, v in sortedCharDict.iteritems():
inv_map[v] = inv_map.get(v, [])
inv_map[v].append(k)
return inv_map
f = open('/Users/Developer/funkymess.txt','r')
for line in f:
#print line
processline = line.rstrip('\n')
putEncounteredCharactersInDictionary(processline)
f.close()
sortedCharachterDictionary = sortCharacterDictionary(characterDict)
#print sortedCharachterDictionary
inversedSortedCharacterDictionary = inverseSortedCharacterDictionary(sortedCharachterDictionary)
print inversedSortedCharacterDictionary[1]r
有人可以看一下并为我提供一些指示,说明我在这里是否走在正确的轨道上,如果可能的话,从语言和算法的角度提供一些关于可能的优化/最佳实践和潜在重构的反馈.
谢谢
最佳答案
我想向您介绍重构的过程。学习编程不仅仅是了解最终结果,这是您在 Stack Overflow 上提问时通常得到的结果。这是关于如何自己得到那个答案。当人们针对此类问题发布简短而密集的答案时,并不总是很明显他们是如何得出解决方案的。
那么让我们进行一些重构,看看我们可以做些什么来简化您的代码。我们将重写、删除、重命名和重新排列代码,直到无法做出更多改进为止。
Python 不需要这么冗长。当您在 Python 中对列表和字典进行显式循环操作,而不是使用对整个容器进行操作的列表理解和函数时,通常会产生代码味道。
如果不存在,defaultdict(int)
将在访问时生成条目。这让我们在计算字符时消除 if/else 分支。
from collections import defaultdict
characterDict = defaultdict(int)
def putEncounteredCharactersInDictionary(lineStr):
for character in lineStr:
characterDict[character] += 1
字典不保证其键的任何顺序。您不能假定这些项目的存储顺序与您插入它们的顺序相同。因此,对 dict 条目进行排序,然后将它们放回另一个 dict 只会将它们重新打乱。
这意味着您的函数基本上是空操作。对项目进行排序后,您需要将它们保存为元组列表以保留它们的排序顺序。删除该代码后,我们可以将此方法缩减为一行。
def sortCharacterDictionary(characterDict):
return sorted(characterDict.iteritems(), key=itemgetter(1))
鉴于之前的评论,排序后您实际上不再有字典。但假设你这样做了,这个函数就是不鼓励显式循环的情况之一。在 Python 中,始终考虑如何一次对集合进行操作,而不是一次对一个项目进行操作。
def inverseSortedCharacterDictionary(sortedCharDict):
return dict((v, k) for k, v in sortedCharDict.iteritems())
在一行中,我们 (1) 遍历字典中的键/值对; (2) 切换它们并创建反转的值/键元组; (3) 从这些倒置的元组中创建一个字典。
您的方法名称很长且具有描述性。无需在评论中重复相同的信息。仅当您的代码不能 self 描述时才使用注释,例如当您有一个复杂的算法或一个不是很明显的不寻常结构时。
在命名方面,您的名字不必要地太长。我会坚持使用描述性远小于 的名称,并使它们更通用。不要使用 inverseSortedCharacterDictionary
,而是尝试使用 invertedDict
。这就是该方法所做的全部,它反转了一个字典。它是否传递了排序字符字典或任何其他类型的字典实际上并不重要。
根据经验,尽量使用最通用的名称,以便您的方法和变量尽可能通用。更通用意味着更可重用。
characters = defaultdict(int)
def countCharacters(string):
for ch in string:
characters[ch] += 1
def sortedCharacters(characters):
return sorted(characters.iteritems(), key=itemgetter(1))
def invertedDict(d):
return dict((v, k) for k, v in d.iteritems())
使用临时变量和辅助方法是一种很好的编程习惯,我赞赏您在程序中这样做。然而,现在我们已经足够简单,每行只有一两行,我们可能甚至不再需要它们。
这是按上述方式更改函数后的程序主体:
f = open('funkymess.txt', 'r')
for line in f:
countCharacters(line.rstrip('\n'))
f.close()
print sortedCharacters(characters)[0]
然后让我们继续并内联这些辅助方法,因为它们非常简单。这是所有重构后的最终程序:
#!/usr/bin/env python
from operator import itemgetter
from collections import defaultdict
characters = defaultdict(int)
f = open('funkymess.txt','r')
for line in f:
for ch in line.rstrip('\n'):
characters[ch] += 1
f.close()
print sorted(characters.iteritems(), key=itemgetter(1))[0]
关于Python Puzzle 代码审查(剧透),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4156699/
如何在 Grav CMS 中剧透(隐藏文本或 block ) Markdown 或插件?官方不剧透markdown和 Markdown Extra (由 Grav 支持)。 我尝试像 this 这样的
我一直在研究 Python Challenge 中提出的问题.其中一个问题要求从一堆字符中筛选出最稀有的字符。 我的方法是从文本文件中读取字符,将字符/出现作为键/值对存储在字典中。按值对字典进行排序
我有一个很大的矩阵 A,它有 1GB 的 double 值,当我将它重新整形为不同的维度时,它的速度快得令人难以置信。 A=rand(128,1024,1024); tic;B=reshape(A,1
好吧,让我解释一下我的意思是哪种“剧透标签”: 在我所在的 phpBB 论坛中,有一个 [剧透] BBCode 隐藏了里面的文本,有一个显示/隐藏的按钮,应该看起来像发布页面中的 prosilver
我在很多记录中都有这个字符串 [spoiler:abcdefgh]。 abcdefgh 是可变字符。我希望它成为 [剧透]。所以我想删除 :abcdefgh。 我知道查询是: UPDATE post
所以我正在尝试参加 Stripe CTF 竞赛,但我对安全性一无所知,所以当我遇到问题时,我查看了问题 3。我仍然不明白它是如何工作的。 黑客攻击的目标是通过使用设置了 SUID 位的应用程序访问不同
我之前曾尝试暴力破解它,但没有成功。这是我的递归尝试#2(第一次使用递归方法)。请帮忙! 发生的情况是这样的:代码运行良好,数字较小,但是当我们达到一百万时,代码就会运行,并且什么也不会发生。在 Ec
我是一名优秀的程序员,十分优秀!