gpt4 book ai didi

lda - 潜在狄利克雷分配解决方案示例

转载 作者:行者123 更新时间:2023-12-04 18:12:30 26 4
gpt4 key购买 nike

我正在尝试了解潜在狄利克雷分配(LDA)。我有机器学习和概率论的基础知识,并基于这篇博文 http://goo.gl/ccPvE我能够开发 LDA 背后的直觉。但是,我仍然没有完全了解其中的各种计算。我想知道有人可以使用非常小的语料库(比如说 3-5 个句子和 2-3 个主题)向我展示计算结果。

最佳答案

Edwin Chen(顺便说一句,在 Twitter 工作)有 an example在他的博客中。 5 句话,2 个主题:

  • 我喜欢吃西兰花和香蕉。
  • 我早餐吃了一个香蕉和菠菜冰沙。
  • 龙猫和小猫都很可爱。
  • 我姐姐昨天收养了一只小猫。
  • 看看这只可爱的仓鼠咀嚼一块西兰花。

  • 然后他做了一些“计算”
  • 第 1 句和第 2 句:100% 主题 A
  • 第 3 句和第 4 句:100% 主题 B
  • 句子 5:60% 的主题 A,40% 的主题 B

  • 并猜测主题:
  • 主题 A:30% 的西兰花,15% 的香蕉,10% 的早餐,10% 的咀嚼,……
  • 此时,您可以将主题 A 解释为关于 食品
  • 主题 B:20% 的龙猫,20% 的小猫,20% 的可爱,15% 的仓鼠,……
  • 此时,您可以将主题 B 解释为关于 可爱的动物


  • 你的问题是他是如何得出这些数字的?这些句子中的哪些词带有“信息”:
  • 西兰花,香蕉,冰沙,早餐,咀嚼,吃
  • 龙猫,小猫,可爱,收养,仓鼠

  • 现在让我们逐句从每个主题中获取单词:
  • 食物 3, 可爱 0 --> 食品
  • 食物 5, 可爱 0 --> 食品
  • 食物 0,可爱 3 --> 可爱
  • 食物 0,可爱 2 --> 可爱
  • 食物 2,可爱 2 --> 50% 食品 + 50% 可爱

  • 所以我的数字,与陈的略有不同。也许他在“一块花椰菜”中包含了“一块”这个词来计算食物。

    我们在脑海中做了两个计算:
  • 查看句子并首先提出2个主题。 LDA 通过将每个句子视为主题的“混合”并猜测每个主题的参数来做到这一点。
  • 决定哪些词是重要的。 LDA 使用“术语频率/逆文档频率”来理解这一点。
  • 关于lda - 潜在狄利克雷分配解决方案示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10624760/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com