gpt4 book ai didi

machine-learning - 文本分类

转载 作者:行者123 更新时间:2023-11-30 08:26:48 24 4
gpt4 key购买 nike

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答。

让我解释一下我想要实现的内容。 (以为例)

单词列表:

  1. java
  2. 编程
  3. 语言
  4. 升c

类别列表。

  1. java
  2. 升c

在这里我们将训练该集合,如下:

  1. java 映射到类别 1.java
  2. 编程对应类别 1.java
  3. 编程对应类别 2.c-sharp
  4. 语言映射到类别 1.java
  5. 语言映射到类别 2.c-sharp
  6. c-sharp 映射到类别 2.c-sharp

现在我们有一个短语“The best javaprogramming book”从给定的短语中,以下单词与我们的“单词列表”匹配。:

  1. java
  2. 编程

“programming”有两个映射类别“java”和“c-sharp”,因此它是一个常用词。

“java”仅映射到类别“java”。

所以我们的短语匹配类别是“java”

这就是我想到的,这个解决方案好吗,可以实现吗,你的建议是什么,我错过了什么,缺陷等等。

最佳答案

当然这是可以实现的。如果您在正确的数据集(我猜是 Java 和 C# 编程书籍的标题)上训练朴素贝叶斯分类器或线性 SVM,它应该学会将术语“Java”与 Java、“C#”和“.NET”与 C# 相关联。 ,以及两者的“编程”。也就是说,如果数据集被均匀划分,朴素贝叶斯分类器可能会学习 Java 或 C# 等常用术语(例如“编程”)的大致均匀概率。

关于machine-learning - 文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8136677/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com