gpt4 book ai didi

python - 在 python 中确定文本语言和纠正拼写错误的最佳算法是什么?

转载 作者:行者123 更新时间:2023-12-01 06:53:24 28 4
gpt4 key购买 nike

我正在寻找可以告诉我文本语言的算法(例如 Hello - 英语、Bonjour - 法语、Servicio - 西类牙语)以及纠正英语单词的拼写错误。我已经探索过 Google 的 TextBlob,它非常相关,但是当我的代码开始执行时,它就出现“请求过多”错误。我也开始探索 Polyglot,但在 Windows 上下载该库时遇到很多问题。

TextBlob 代码

*import pandas as pd
from tkinter import filedialog
from textblob import TextBlob
import time
from time import sleep
colnames = ['Word']
x=filedialog.askopenfilename(title='Select the word list')
print("Data to be checked: " + x)
df = pd.read_excel(x,sheet_name='Sheet1',header=0,names=colnames,na_values='?',dtype=str)
words = df['Word']
i=0
Language_detector=pd.DataFrame(columns=['Word','Language','corrected_word','translated_word'])
for word in words:

b = TextBlob(word)
language_word=b.detect_language()
time.sleep(0.5)

if language_word in ['en','EN']:
corrected_word=b.correct()
time.sleep(0.5)
Language_detector.loc[i, ['corrected_word']]=corrected_word
else:
translated_word=b.translate(to='en')
time.sleep(0.5)

Language_detector.loc[i, ['Word']]=word
Language_detector.loc[i, ['Language']]=language_word
Language_detector.loc[i, ['translated_word']]=translated_word

i=i+1

filename="Language detector test v 1.xlsx"
Language_detector.to_excel(filename,sheet_name='Sheet1')
print("Languages identified for the word list")**

最佳答案

对语言进行分类的一种常见方法是收集字母或单词频率的汇总统计数据,并将其与已知的语料库进行比较。一个naive bayesian classifier就足够了。请参阅https://pypi.org/project/Reverend/了解在 Python 中执行此操作的方法。

还可以使用最可能的单词与特定拼写错误的可能性的统计模型从语料库中进行拼写错误的纠正。请参阅,https://norvig.com/spell-correct.html有关如何在 Python 中执行此操作的示例。

关于python - 在 python 中确定文本语言和纠正拼写错误的最佳算法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58904074/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com