gpt4 book ai didi

python - 如何在 Python 中忽略词云中的某些词?

转载 作者:太空宇宙 更新时间:2023-11-03 14:00:09 25 4
gpt4 key购买 nike

在 Python3 和 Pandas 中,我有这个程序可以从列中制作词云:

import pandas as pd
import numpy as np
from wordcloud import WordCloud
import matplotlib.pyplot as plt

autores_atuais = pd.read_csv("deputados_autores_projetos.csv", sep=',',encoding = 'utf-8', converters={'IdAutor': lambda x: str(x), 'IdDocumento': lambda x: str(x), 'CodOriginalidade': lambda x: str(x), 'IdNatureza': lambda x: str(x), 'NroLegislativo': lambda x: str(x)})

autores_atuais.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 6632 entries, 74057 to 84859
Data columns (total 10 columns):
IdAutor 6632 non-null object
IdDocumento 6632 non-null object
NomeAutor 6632 non-null object
AnoLegislativo 6632 non-null object
CodOriginalidade 5295 non-null object
DtEntradaSistema 6632 non-null object
DtPublicacao 6632 non-null object
Ementa 6632 non-null object
IdNatureza 6632 non-null object
NroLegislativo 6632 non-null object
dtypes: object(10)
memory usage: 569.9+ KB


wordcloud = WordCloud().generate(' '.join(autores_atuais['Ementa']))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

enter image description here

请问,我怎么能忽略一些来自云端的文字呢?例如,小词(“de”、“ao”)和某些词(“Estado”)

最佳答案

我认为您使用的是 amueller 的 wordcloud模块?如果是这样,则有一个 stopwords 参数允许您指定一个包含要排除的单词的文件。

例如,如果您创建一个名为 stopwords.txt 的文本文件并将其保存在与 csv 文件相同的文件夹中,其中包含:

de
ao
Estado

然后改为:

wordcloud = WordCloud(stopwords='stopwords.txt').generate(' '.join(autores_atuais['Ementa']))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

应正确排除这些词。要排除的默认单词集包含在模块文件夹中,应称为 stopwords。如果您经常遇到相同的问题,在此处修改此默认文件可能会有所帮助。

关于python - 如何在 Python 中忽略词云中的某些词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50292678/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com