gpt4 book ai didi

nlp - 如何在 python-gensim 中使用潜在狄利克雷分配 (LDA) 来抽象二元主题而不是一元主题?

转载 作者:行者123 更新时间:2023-12-04 13:45:57 26 4
gpt4 key购买 nike

LDA 原始输出

  • 一元组
  • topic1 -scuba,water,vapor,diving
  • 主题2 -二氧化物,植物,绿色,碳

  • 所需输出
  • 双元组话题
  • topic1 - 水肺潜水,水 Vapor
  • topic2 -绿色植物,二氧化碳

  • 任何的想法?

    最佳答案

    鉴于我有一个名为 docs 的字典,包含来自文档的单词列表,我可以使用 nltk.util.ngrams 或您自己的函数将其转换为单词 + 双字母组(或三字母组等)的数组,如下所示:

    from nltk.util import ngrams

    for doc in docs:
    docs[doc] = docs[doc] + ["_".join(w) for w in ngrams(docs[doc], 2)]

    然后将这个 dict 的值作为语料库传递给 LDA 模型。由下划线连接的双元组因此被视为单个标记。

    关于nlp - 如何在 python-gensim 中使用潜在狄利克雷分配 (LDA) 来抽象二元主题而不是一元主题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32476336/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com