gpt4 book ai didi

python - Vectorizer Python中单词的组合

转载 作者:行者123 更新时间:2023-11-28 22:25:13 25 4
gpt4 key购买 nike

我有一个包含医学文本数据的数据集,我对它们应用了 tf-idf 向量化器,并像这样计算单词的 tf idf 分数:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer as tf

vect = tf(min_df=60,stop_words='english')

dtm = vect.fit_transform(df)
l=vect.get_feature_names()

x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names())

所以基本上我的问题如下 - 当我应用 TfidfVectorizer 时,它将文本拆分为不同的词,例如:“疼痛”、“头痛”、“恶心”等。我怎样才能在 TfidfVectorizer 的输出中获得单词组合,例如:“剧烈疼痛”、“丛集性头痛”、“恶心呕吐”。谢谢

最佳答案

使用ngram_range参数:

vect = tf(min_df=60, stop_words='english', ngram_range=(1,2))

或(取决于您的目标):

vect = tf(min_df=60, stop_words='english', ngram_range=(2,2))

关于python - Vectorizer Python中单词的组合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45690619/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com