gpt4 book ai didi

database - 100 万个句子保存在数据库中 - 删除不相关的英语单词

转载 作者:可可西里 更新时间:2023-11-01 14:15:55 27 4
gpt4 key购买 nike

我正在尝试使用从情绪中提取的正面/负面词语来训练朴素贝叶斯分类器。示例:

我喜欢这部电影:))

我讨厌下雨:(

我的想法是根据使用的情绪提取正面或负面的句子,但为了训练分类器并将其保存到数据库中。

问题是我有超过100万个这样的句子,如果我一个字一个字地训练,数据库会去折腾。我想删除所有不相关的单词示例“I”、“this”、“when”、“it”,这样我必须进行数据库查询的次数就会减少。

请帮助我解决这个问题并建议我更好的方法

谢谢

最佳答案

有两种常见的方法:

  1. 编译 stop list .
  2. POS tag把那些你认为不感兴趣的句子扔掉。

在这两种情况下,可以使用诸如 PMI 之类的度量来确定哪些词/POS 标签是相关的。 .

请注意:信息检索中的标准停止列表可能适用于情感分析,也可能无效。我最近读了一篇论文(抱歉,没有引用资料),其中声称!和 ?,通常在搜索引擎中被删除,是情感分析的宝贵线索。 (“我”也可能如此,尤其是当您也有一个中性类别时。)

编辑:您还可以安全地丢弃训练集中只出现一次的所有内容(所谓的 hapax legomena )。出现一次的词对您的分类器来说信息值(value)很小,但可能会占用大量空间。

关于database - 100 万个句子保存在数据库中 - 删除不相关的英语单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4259044/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com