gpt4 book ai didi

python - 用自然语言比较多个语料库的最佳方法是什么?

转载 作者:行者123 更新时间:2023-11-28 18:19:32 25 4
gpt4 key购买 nike

我一直在为一个研究项目(使用 Gensim 和 Python)做自然语言叙述报告的 LDA 主题模型。我有几个较小的语料库(每个从 1400 到 200 个文档——我知道,这很小!)我想比较,但我不知道除了查看每个 LDA 模型(例如使用 pyLDAviz)之外该怎么做.我的学术背景不是 CS,我对 NLP 还是有点陌生​​。

比较语料库/主题模型中的主题有哪些好方法?例如,是否可以估计两个 LDA 模型有多少重叠?还是有其他方法可以评估几个语料库的主题相似度?

预先感谢您的帮助!

最佳答案

将语料库加入一个大语料库,用你认为好的参数做一个主题模型,然后比较主题在子语料库中的分布情况。

这是我所知道的唯一干净的方法。请注意,不同的随机种子会产生不同的主题模型,而所有其他参数都是固定的;没有语料库的主题模型。

可以在 this abstract 中找到一个示例(子语料库是科学论文发表的不同年份) (完整引用:

@InProceedings{fankhauser-etal2016,
Title = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle = {Proceedings of DH 2016},
Year = {2016},
Address = {Krakow, Poland},
Month = {July 12-16},
url = {http://dh2016.adho.org/abstracts/322},
}

).

关于python - 用自然语言比较多个语料库的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46001910/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com