gpt4 book ai didi

python - Genism 中 Html 文档的 LDA

转载 作者:太空宇宙 更新时间:2023-11-03 18:31:11 25 4
gpt4 key购买 nike

我有一堆 html 文档 10-15,我必须在 gensim 中应用 LDA 算法我一直坚持创建语料库,因为我不明白如何为 html 文档集合设计语料库。网站上的示例显示了它们在维基百科压缩文件 .xml.bz 上的创建

任何人请指导我如何在一堆 html 文档上应用 LDA。提前致谢

最佳答案

查看 HTML 处理库,例如 lxmlbeautifulsoup

对于更高级别的处理(删除样板、从 HTML 中提取纯文本),请查看例如洪扎·波米卡莱克的jusText包。

获得纯文本文档后,您可以按照 gensim's tutorials 继续操作.

关于python - Genism 中 Html 文档的 LDA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22361438/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com