gpt4 book ai didi

java - 情感分析工具的停用词库

转载 作者:行者123 更新时间:2023-12-01 16:59:55 25 4
gpt4 key购买 nike

我正在使用 Google Prediction API 构建情绪分析工具。我有一些标记的训练数据,我将用它们来训练模型。由于这是从社交媒体收集的数据,句子中的大多数单词都是停用词,我想在训练模型之前删除它,这是否有助于提高准确性? java 中是否有任何库可以用来删除这些停用词,而不是构建我自己的停用词集。

问候迪佩什

最佳答案

停用词会有所帮助,但恐怕您需要拿出专门针对情感分析的自己的列表(例如,没有现成的列表)。这里有一些更多的想法,它们可能会提高预测准确性,而无需投入大量工作来创建自己的停用词列表(这些想法取自 from our submission Kaggle 上的 CrowdFlower OpenData 竞赛):

  • 停用词:删除“RT”、“@”、“#”、“link”、“google”、“facebook”、“yahoo”、“rt”等停用词
  • 字符重复:删除单词中重复的字符集(例如“hottttt”被替换为“hot”)
  • 拼写校正:基于给定语料库的编辑距离进行拼写校正。
  • 表情图标:确保在数据清理步骤中不会删除或忽略表情图标(不确定 Google Prediction API 如何处理此问题)。

有关更多想法,另请参阅此 forum thread .

关于java - 情感分析工具的停用词库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28471775/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com