gpt4 book ai didi

Python:有没有比使用自动更正拼写更正更快的方法?

转载 作者:行者123 更新时间:2023-12-01 07:26:24 24 4
gpt4 key购买 nike

我正在进行情感分析,并且有 traintest csv 文件,其中包含 train 数据框(在读取 csv 文件后创建),其中包含列textsentiment

在 google-colab 中尝试过:

!pip install autocorrect
from autocorrect import spell
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]

但是要花很长时间才能停止。有没有更好的方法来自动更正 pandas 列?怎么做?

P.S.:数据集足够大,大约有 5000 行,每个 train['text'] 值大约有 300 个单词,类型为 str。我没有train['text']分解成句子。

最佳答案

首先,一些示例数据:

from typing import List
from autocorrect import spell
import pandas as pd
from sklearn.datasets import fetch_20newsgroups

data_train: List[str] = fetch_20newsgroups(
subset='train',
categories=['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'],
shuffle=True,
random_state=444
).data

df = pd.DataFrame({"train": data_train})

语料库大小:

>>> df.shape
(2034, 1)

文档的平均字符长度:

>>> df["train"].str.len().mean()
1956.4896755162242

第一个观察结果:spell()(我从未使用过自动更正)确实很慢。 一个文档需要 7.77 秒!

>>> first_doc = df.iat[0, 0]                                                                                                                                                                                                                                 
>>> len(first_doc.split())
547
>>> first_doc[:100]
'From: dbm0000@tm0006.lerc.nasa.gov (David B. Mckissock)\nSubject: Gibbons Outlines SSF Redesign Guida'
>>> %time " ".join((spell(i) for i in first_doc.split()))
CPU times: user 7.77 s, sys: 159 ms, total: 7.93 s
Wall time: 7.93 s

因此,该函数可能是您的瓶颈,而不是在矢量化 Pandas 方法或 .apply() 之间进行选择。粗略计算一下,考虑到本文档大约是平均值的 1/3,您的总非并行计算时间为 7.93 * 3 * 2034 == 48,388 秒。不太漂亮。

为此,考虑并行化。这是一项高度并行化的任务:在文档集合中应用受 CPU 限制的简单可调用函数。 concurrent.futures为此有一个简单的 API。此时,您可以将 Pandas 中的数据结构转变为轻量级的结构,例如列表或元组。

示例:

>>> corpus = df["train"].tolist()  # or just data_train from above...                                                                                                                                                                                        
>>> import concurrent.futures
>>> import os
>>> os.cpu_count()
24
>>> with concurrent.futures.ProcessPoolExecutor() as executor:
... corrected = executor.map(lambda doc: " ".join((spell(i) for i in doc)), corpus)

关于Python:有没有比使用自动更正拼写更正更快的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57430407/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com