gpt4 book ai didi

python - 使用Python分析文本字符串中的二元组

转载 作者:太空宇宙 更新时间:2023-11-03 15:55:29 24 4
gpt4 key购买 nike

我正在尝试使用 python 来帮助我破解 Vigenère 密码。我对编程相当陌生,但我已经设法制定了一种算法来分析文本字符串中的二元组频率。这是我到目前为止所拥有的:

import nltk, string
from nltk import bigrams

Ciphertext = str(input("What is the text to be analysed?"))

#Removes spacing and punctuation to make the text easier to analyse
def Remove_Formatting(str):
str = str.upper()
str = str.strip()
str = str.replace(' ','')
str = str.translate(str.maketrans({a:None for a in string.punctuation}))
return str

Ciphertext = Remove_Formatting(Ciphertext)

#Score is meant to increase if most common bigrams are in the text
def Bigram(str):
Common_Bigrams = ['TH', 'EN', 'NG',
'HE', 'AT', 'AL',
'IN', 'ED', 'IT',
'ER', 'ND', 'AS',
'AN', 'TO', 'IS',
'RE', 'OR', 'HA',
'ES', 'EA', 'ET',
'ON', 'TI', 'SE',
'ST', 'AR', 'OU',
'NT', 'TE', 'OF']
Bigram_score = int(0)
for bigram in str:
if bigram in Common_Bigrams:
Bigram_score += 1
return Bigram_score

Bigram(Ciphertext)

print (Bigram_score)

但是,当我尝试使用文本运行时,我收到此错误:

Traceback (most recent call last):
File "C:/Users/Tony/Desktop/Bigrams.py", line 36, in <module>
print (Bigram_score)
NameError: name 'Bigram_score' is not defined

这是什么意思?我以为我已经将 Bigram_score 定义为变量,并且我已经尝试了所有方法,但它仍然以这种方式返回错误。我做错了什么?请帮忙...

提前致谢,

托尼

最佳答案

您可以使 Bigram_score 全局化,如下所示:

def Bigram(string): # don't override str
global Bigram_score
Common_Bigrams = ['TH', 'EN', 'NG',
'HE', 'AT', 'AL',
'IN', 'ED', 'IT',
'ER', 'ND', 'AS',
'AN', 'TO', 'IS',
'RE', 'OR', 'HA',
'ES', 'EA', 'ET',
'ON', 'TI', 'SE',
'ST', 'AR', 'OU',
'NT', 'TE', 'OF']
Bigram_score = 0 # that 0 is an integer is implicitly understood
for bigram in string:
if bigram in Common_Bigrams:
Bigram_score += 1
return Bigram_score

您还可以将 Bigram 函数的返回结果绑定(bind)到变量,如下所示:

Bigram_score = Bigram(Ciphertext)

print(Bigram_score)

或者:

print(Bigram(Ciphertext))

当您为函数中的变量赋值时,它们是局部的并绑定(bind)到该函数。如果函数返回任何内容,则返回值必须绑定(bind)到变量才能正确重用(或直接使用)。

这是其工作原理的示例:

spam = "spam" # global spam variable

def change_spam():
spam = "ham" # setting the local spam variable
return spam

change_spam()
print(spam) # prints spam

spam = change_spam() # here we assign the returned value to global spam
print(spam) # prints ham

此外,您的 for 循环在一元词而不是二元词上循环。让我们仔细看看:

for x in "hellothere":
print(x)

这将打印一元组。因此,我们重命名代码中的 bigram 变量,以查看哪里存在逻辑问题。

for unigram in string:
if unigram in Common_Bigrams:
print("bigram hit!")

由于没有与任何二元组相同的一元组,因此永远不会打印“bigram hit!”。我们可以尝试使用不同的方法来获取二元组,即使用 while 循环和索引号。

index = 0
n = 2 # for bigrams
while index < len(string)-(n-1): # minus the length of n-1 (n-grams)
ngram = string[index:index+n] # collect ngram
index += 1 # important to add this, otherwise the loop is eternal!
print(ngram)

接下来,只需在循环中包含您想要对二元组执行的操作。

关于python - 使用Python分析文本字符串中的二元组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40849439/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com