gpt4 book ai didi

java - 朴素贝叶斯文本分类计算,最好在 MySQL 或 java 中进行

转载 作者:行者123 更新时间:2023-11-29 13:11:02 25 4
gpt4 key购买 nike

朴素贝叶斯中类条件概率的计算为

P(t|c) = Log2((n1+1)/(n2+n3))

哪里

  1. t = 代币 x; c = 类 x
  2. n1 = 类 x 中 token x 的数量
  3. n2 = x 类中所有 token 的数量
  4. n3 = 所有类别中所有 token 的数量

在 MySQL 中计算和在 Java 中计算哪个更快(当然我们需要从 MySQL 中抓取数据以便在 Java 中使用)?

最佳答案

朴素贝叶斯分类器计算简单,但需要大量数据操作。当应用于文本时,您通常会在文本中查找许多不同的术语。

我天生偏向于在 SQL 中进行这些类型的计算。我至少认为 MySQL 是执行此操作的合理环境。根据问题的具体性质和数据的结构,您可能会发现全文索引很有帮助。我对在应用程序端使用大型语料库(数十或数百 GB)持谨慎态度。我的书“使用 SQL 和 Excel 进行数据分析”有一章专门讨论朴素贝叶斯和类似类型的模型。

关于java - 朴素贝叶斯文本分类计算,最好在 MySQL 或 java 中进行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22098745/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com