gpt4 book ai didi

python-3.x - 如何在python中制作词频矩阵

转载 作者:行者123 更新时间:2023-11-30 09:05:15 25 4
gpt4 key购买 nike

我正在研究情感分析问题,我必须准备一个文档频率矩阵。例如,我有三个带有情感的单词(数据)

他是一个好人|积极意义

他是个坏学生|负面情绪

他很勤奋|积极意义

独特词汇中有以下单词。

他是一个好人,坏人,学生,勤奋

根据词汇和数据,我将给出下面的 3X8 矩阵

对于第一句话:1,1,1,1,1,0,0,0

对于第二句:1,1,0,0,0,1,1,0

对于第三句:1,1,0,0,0,0,0,1

请建议在 python 中实现此目的的任何最佳且有效的方法。

最佳答案

由于您用机器学习标记了问题,我建议您使用sklearn.CountVectorizer :

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['He is a good person',
'He is bad student',
'He is hardworking']
df = pd.DataFrame(data=corpus, columns=['sentences'])

vectorizer = CountVectorizer(vocabulary=['he', 'is', 'a', 'good', 'person', 'bad', 'student', 'hardworking'], min_df=0,
stop_words=frozenset(), token_pattern=r"(?u)\b\w+\b")
X = vectorizer.fit_transform(df['sentences'].values)
result = pd.DataFrame(data=X.toarray(), columns=vectorizer.get_feature_names())
print(result)

输出

   he  is  a  good  person  bad  student  hardworking
0 1 1 1 1 1 0 0 0
1 1 1 0 0 0 1 1 0
2 1 1 0 0 0 0 0 1

关于python-3.x - 如何在python中制作词频矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53619472/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com