gpt4 book ai didi

python - 如何使用 pandas 查找文本数据中单词的出现频率并将其写入 csv 文件

转载 作者:太空宇宙 更新时间:2023-11-03 14:24:02 24 4
gpt4 key购买 nike

如何在 python 中创建包含单词及其出现频率的 csv 文件。

我删除了停用词,对文本数据进行了标记化和计数向量化

我的代码

 data['Clean_addr'] = data['Adj_Addr'].apply(lambda x: ' '.join([item.lower() for item in x.split()]))
data['Clean_addr']=data['Clean_addr'].apply(lambda x:"".join([item.lower() for item in x if not item.isdigit()]))
data['Clean_addr']=data['Clean_addr'].apply(lambda x:"".join([item.lower() for item in x if item not in string.punctuation]))
data['Clean_addr'] = data['Clean_addr'].apply(lambda x: ' '.join([item.lower() for item in x.split() if item not in (new_stop_words)]))
cv = CountVectorizer( max_features = 200,analyzer='word')
cv_addr = cv.fit_transform(data.pop('Clean_addr'))

我正在使用的文件的示例转储

https://www.dropbox.com/s/allhfdxni0kfyn6/Test.csv?dl=0

**Expected output**
Word Freq
Industry 40
Limited 23
House 45
flat 56

最佳答案

您可以先创建DataFrame,然后创建sum:

df1 = pd.DataFrame(cv_addr.todense(), columns=cv.get_feature_names())
df1 = df1.sum().rename_axis('Word').reset_index(name='Freq')

关于python - 如何使用 pandas 查找文本数据中单词的出现频率并将其写入 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47747195/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com