gpt4 book ai didi

facebook - fasttext与LDA的比较

转载 作者:行者123 更新时间:2023-11-30 05:15:53 25 4
gpt4 key购买 nike

嗨,上周 Facebook 宣布了 Fasttext,这是一种将单词分类到桶中的方法。 Latent Dirichlet Allocation 也是进行主题建模的另一种方法。我的问题是,有没有人对这两个方面的优缺点进行过比较。

我没有尝试过 Fasttext,但根据我的经验,这里有一些 LDA 的优缺点

专业版

  1. 迭代模型,支持Apache spark

  2. 接收文档语料库并进行主题建模。

  3. 不仅要找出文档讲的是什么,还要找出相关文档

  4. Apache spark 社区不断为此做出贡献。早些时候他们让它在 mllib 上工作,现在在 ml 库上工作

反对

  1. 需要很好地定义停用词。它们必须与文档的上下文相关。例如:“文档”是一个出现频率很高的词,可能在推荐主题的图表中名列前茅,但它可能相关也可能不相关,因此我们需要更新它的停用词

  2. 有时分类可能无关紧要。在下面的示例中,很难推断出这个桶在说什么

主题:

  1. 术语:纪律

  2. Term:disciplines

  3. Term:notestable

  4. Term:winning

  5. 术语:路径

  6. Term:chapterclosingtable

  7. 术语:元程序

  8. 术语:突破

  9. Term:distinctions

  10. 术语:救援

如果有人对 Fasttext 做过研究,你能更新你的学习吗?

最佳答案

fastText 提供的不仅仅是主题建模,它还是一种使用浅层神经网络生成词嵌入和文本分类的工具。作者表示其性能可与更复杂的“深度学习”算法相媲美,但训练时间要短得多。

优点:

=> 训练自己的 fastText 模型非常容易,

$ ./fasttext skipgram -input data.txt -output model

只需提供您的输入和输出文件、要使用的架构等等,但如果您希望稍微自定义您的模型,fastText 也提供更改超参数的选项。

=> 在生成词向量时,fastText 会考虑称为字符 n-gram 的词的子部分,这样即使相似的词恰好出现在不同的上下文中,它们也具有相似的向量。例如,“supervised”、“supervise”和“supervisor”都被分配了相似的向量。

=> 先前训练的模型可用于计算词汇表外单词的单词向量。这个是我的最爱。即使您的语料库的词汇量是有限的,您也可以获得世界上几乎所有存在的词的向量。

=> fastText 还提供了为段落或句子生成向量的选项。通过比较文档的向量可以找到相似的文档。

=> 预测一段文本的可能标签的选项也已包括在内。

=> 在维基百科上训练的大约 90 种语言的预训练词向量在官方 repo 中可用。

缺点:

=> 由于 fastText 是基于命令行的,所以我在将它整合到我的项目中时遇到了困难,但这对其他人来说可能不是问题。

=> 没有内置的方法来查找相似的单词或段落。

对于那些希望阅读更多内容的人,这里是官方研究论文的链接:

1) https://arxiv.org/pdf/1607.04606.pdf

2) https://arxiv.org/pdf/1607.01759.pdf

并链接到官方仓库:

https://github.com/facebookresearch/fastText

关于facebook - fasttext与LDA的比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39071317/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com