gpt4 book ai didi

machine-learning - 情感分析的最佳预处理技术是什么?

转载 作者:行者123 更新时间:2023-11-30 09:18:57 26 4
gpt4 key购买 nike

我正在尝试将评论数据集分为两类,即 A 类和 B 类。我使用 LightGBM 进行分类。

我多次更改了分类器的参数,但结果没有出现巨大差异。

我认为问题出在预处理步骤上。我定义了一个如下所示的函数来进行预处理。我使用了词干分析并删除了停用词。我不知道我错过了什么。我尝试过 LancasterStemmerPorterStemmer

stops = set(stopwords.words("english"))
def cleanData(text, lowercase = False, remove_stops = False, stemming = False, lemm = False):
txt = str(text)
txt = re.sub(r'[^A-Za-z0-9\s]',r'',txt)
txt = re.sub(r'\n',r' ',txt)

if lowercase:
txt = " ".join([w.lower() for w in txt.split()])

if remove_stops:
txt = " ".join([w for w in txt.split() if w not in stops])

if stemming:
st = PorterStemmer()
txt = " ".join([st.stem(w) for w in txt.split()])

if lemm:
wordnet_lemmatizer = WordNetLemmatizer()
txt = " ".join([wordnet_lemmatizer.lemmatize(w) for w in txt.split()])
return txt

是否需要进行更多预处理步骤才能获得更好的准确性?

数据集的 URL:Dataset

编辑:

我使用的参数如下所述。

params = {'task': 'train',
'boosting_type': 'gbdt',
'objective': 'binary',
'metric': 'binary_logloss',
'learning_rate': 0.01,
'max_depth': 22,
'num_leaves': 78,
'feature_fraction': 0.1,
'bagging_fraction': 0.4,
'bagging_freq': 1}

我已经更改了 深度num_leaves 参数以及其他参数。但准确率有点停留在一定水平..

最佳答案

有一些事情需要考虑。首先,您的训练集不平衡 - 类别分布约为 70%/30%。你需要在训练中考虑这个事实。您使用什么类型的功能?使用正确的功能集可以提高您的性能。

关于machine-learning - 情感分析的最佳预处理技术是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47040505/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com