gpt4 book ai didi

machine-learning - 用最少的上下文对原始文本进行情感分析和有效聚类

转载 作者:行者123 更新时间:2023-11-30 09:12:14 27 4
gpt4 key购买 nike

假设我有一个电子邮件链,其中有 2 个人讨论问题及其解决方案。我也有一些背景。例如,电子邮件链是关于在 iOS 7 上使用 iPhone 6 时出现的一些问题。仅此而已。从这些电子邮件的内容/文本中,我需要弄清楚问题到底是什么以及提出的解决方案到底是什么。

现在,如果我们将这个问题移植到大数据(即数百万个这样的电子邮件链)中,我想知道如何对它们进行分类或聚类。

我正在使用 Apache Spark 的 MLlib - LDA、FPgrowth 和 Kmeans(+ 大量停用词)。但我的结果看起来不正确。使用这些算法的参数只是给了我知识,但没有好的结果。我最大的问题是没有训练数据。不幸的是,我在网上看到的大多数解决方案都使用手动创建的训练数据。有什么帮助吗?

最佳答案

尝试word2vec 。您可以使用它来创建词向量或句子向量。并在它们之上进行 k 均值聚类。

如果您正在寻找嘈杂的文本数据集,可以查看

关于machine-learning - 用最少的上下文对原始文本进行情感分析和有效聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31799004/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com