machine-learning - 情感分析的最佳预处理技术是什么？-6ren

machine-learning - 情感分析的最佳预处理技术是什么？

转载作者：行者123 更新时间：2023-11-30 09:18:57

26

4

我正在尝试将评论数据集分为两类，即 A 类和 B 类。我使用 LightGBM 进行分类。

我多次更改了分类器的参数，但结果没有出现巨大差异。

我认为问题出在预处理步骤上。我定义了一个如下所示的函数来进行预处理。我使用了词干分析并删除了停用词。我不知道我错过了什么。我尝试过 LancasterStemmer 和 PorterStemmer

stops = set(stopwords.words("english"))
def cleanData(text, lowercase = False, remove_stops = False, stemming = False, lemm = False):
    txt = str(text)
    txt = re.sub(r'[^A-Za-z0-9\s]',r'',txt)
    txt = re.sub(r'\n',r' ',txt)

    if lowercase:
        txt = " ".join([w.lower() for w in txt.split()])

    if remove_stops:
        txt = " ".join([w for w in txt.split() if w not in stops])

    if stemming:
        st = PorterStemmer()
        txt = " ".join([st.stem(w) for w in txt.split()])

    if lemm:
        wordnet_lemmatizer = WordNetLemmatizer()
        txt = " ".join([wordnet_lemmatizer.lemmatize(w) for w in txt.split()])
    return txt

是否需要进行更多预处理步骤才能获得更好的准确性？

数据集的 URL:Dataset

编辑:

我使用的参数如下所述。

params = {'task': 'train',
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'learning_rate': 0.01, 
    'max_depth': 22, 
    'num_leaves': 78,
    'feature_fraction': 0.1, 
    'bagging_fraction': 0.4, 
    'bagging_freq': 1}

我已经更改了 深度 和 num_leaves 参数以及其他参数。但准确率有点停留在一定水平..

最佳答案

有一些事情需要考虑。首先，您的训练集不平衡 - 类别分布约为 70%/30%。你需要在训练中考虑这个事实。您使用什么类型的功能？使用正确的功能集可以提高您的性能。

关于machine-learning - 情感分析的最佳预处理技术是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47040505/

26

4

0

文章推荐： java - 多线程应用程序的 Hibernate getOrCreate 模式

文章推荐： python - 手动制作的 3D 卷积神经网络的形状误差

文章推荐： python - 如何降低二进制数据的维数？

文章推荐： python - 为什么TensorFlow训练过程中变量值没有改变？

preprocessor - C++预处理
当我同时定义两条指令时，如何做到这一点，我会收到编译错误？在这里我想要错误 #define ENG #define POL #if defined POL #if defined ENG 这里没有
rust - 确保按时间顺序记录actix//预处理
我有actix-web，并且调试困难，因为记录器仅在最后写入，如果出现故障，则根本不会写入。RUST_LOG=actix_web=debug,actix_server=debug let server
python - 为什么在聚类之前跨行而非列进行数据标准化(预处理)
对于以下有关数据预处理聚类的问题，我很困惑，在互联网上找不到令人信服的答案。根据Python documentation ，当我们使用 sckit learn 库中的内置命令进行预处理时，假设数据被
c - 预处理#define
我无法理解预处理器的工作原理以及 ## 在这个特定示例中代表什么 #include #define TEMP_KEY(type,Key) (TEMP_##type | Key) enum TEMPK
database - Sentiment140 预处理
我一直在尝试对 Kaggle 上的 Sentiment140 数据库进行一些预处理:https://www.kaggle.com/kazanova/sentiment140 我使用的代码是这样的: i
tensorflow - Keras ImageDataGenerator 预处理
例如，考虑在 Keras 中微调 Resnet50 模型。 For example here : from keras.applications.resnet50 import ResNet50 fr
javascript - 预处理 Javascript 以删除对象属性名称引号
我想预处理 JavaScript 属性名称以将其转换为 { 'extension': object, 'config': {id: 1} } 到 { extension: object,
c - 预处理 C 代码时出现未终止的无条件指令错误
我在编译 C 程序时在预处理步骤中遇到错误。奇怪的是，我可以运行预处理而没有错误或警告: gcc -I/usr/local/libpng-1.6.24/include -Wall -std=c99
c - GCC 预处理，内置行和命令行有什么用？
我很好奇 GCC 预处理步骤的输出。更准确地说，以下两行的目的是什么: # 1 "" # 1 "" 我知道格式是但我不明白本节中可能会出现什么类型的数据。它的目的是什么？谢谢! 最佳答案目的是
c# - 预处理 C# - 检测方法
我需要能够预处理多个 C# 文件作为项目的预构建步骤，检测方法的开始，并在方法开始处插入生成的代码，在任何现有代码之前。但是，我在检测方法的打开时遇到问题。我最初尝试了一个正则表达式来匹配，但最终出现
C 预处理 Token 串联
如何使用 C 预处理自动生成以下代码模式(访问器)？ // Immutable accessor. const auto& member1 () const { return _member1;
c - 预处理 #(字符串化)运算符和空格
我正在考虑分两个阶段实现 C 预处理器，其中第一阶段将源文件转换为预处理标记数组。这对于简单性和性能都有好处，因为当项目中的多个文件包含头文件时，不需要重做标记化工作。障碍: #define f(x
c - 预处理 C99 有向图
有没有办法“预处理”C99 样式的二合字母以获得 C 文件(或 .i 预处理源)，使得生成的文件不包含任何二合字母？例如，给出以下源代码: %:define N 5 int main() = ;
javascript - 用 browserify 预处理？
如何使用 browserify 预处理函数调用？在一个大的 js 文件中，有时我需要将一个 JSON 对象传递给一个变量，但这个 JSON 对象只能通过函数调用创建: var myvar = Rac
c++ - 如何从图像中分离噪声和文本以进行 OCR 预处理
我正在对电视镜头中的字幕应用 OCR。 (我正在使用带 C++ 的 Tesseact 3.x)我正在尝试拆分文本和背景部分作为 OCR 的预处理。这是原图: 然后，预处理图像: OCR结果为:Sic
c++ - 预处理/预编译 - 用常量替换变量
我正在开发一个函数，该函数采用众所周知的参数范围，但我不想为每种情况编写许多不同的函数。有没有一种方法可以定义函数的“模式”并使预编译器根据这种模式生成函数？例子。我有以下功能: int addit
javascript - 多个脚本标签和连接+缩小+预处理
我有一个包含多个脚本标签(接近 20 个)的 html 文件。我决定将所有 JS 文件连接成一个文件，然后缩小连接后的文件。我正在使用 ant 任务来连接并将这样做以进行缩小。我知道我需要提供非串联/
javascript - 预处理 AngularJS 输出
我想在 AngularJS 更新任何 HTML 之前添加一个预处理步骤。为了简单起见，让我们将 hello 的所有实例都加粗。 . 也就是说，如果我们让$scope.text = "hello wor
java - 绕过 Tesseract 预处理
我正在使用 tess4j 作为来自 JAVA 的 tesseract 的包装器对图像运行一系列 OCR。 ocr 的过程仍然需要大量时间(有时甚至 5 秒)，我正在努力加快它的速度。我正在对图像进行
php - 预处理 PHP 以从构建的文件中删除功能
我一直在阅读有关 Phing 和 Ant 的文章，但我不确定这些工具中哪一个(如果有的话)对这种情况最有用。它很容易是调试语句等，但我会给你我们的字面扫描。我们有一个可下载的 PHP 应用程序的免

首页

博学

6Ren·AI

商城

machine-learning - 情感分析的最佳预处理技术是什么？