gensim - 有什么方法可以从doc2vec模型中获取词汇量吗？-6ren

gensim - 有什么方法可以从doc2vec模型中获取词汇量吗？

转载作者：行者123 更新时间：2023-12-04 17:07:38

我正在使用gensim doc2vec。我想知道是否有任何有效的方法来了解doc2vec的词汇量。一种粗略的方法是计算单词总数，但是如果数据量很大(1GB或更多)，那么这将不是一种有效的方法。

最佳答案

如果model是您训练有素的Doc2Vec模型，则可以从以下位置获取应用min_count之后尚存的词汇表中的唯一单词标记数:

len(model.wv.vocab)

可从以下位置获得经过培训的文档标签的数量:

len(model.docvecs)

关于gensim - 有什么方法可以从doc2vec模型中获取词汇量吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41607976/

c# - 字典 API(词汇)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。
semantic-web - 了解要使用的 RDFA 词汇
我们如何知道使用哪个词汇/命名空间来描述带有 RDFa 的数据？我看过很多使用 xmlns:dcterms="http://purl.org/dc/terms/" 的例子或 xmlns:sioc="
huggingface-transformers - 理解 BERT 词汇 [unusedxxx] token :
我正在尝试理解 BERT 词汇 here .它有 1000 个 [unusedxxx] token 。我不遵循这些 token 的用法。我了解其他特殊 token ，如 [SEP]、[CLS]，但 [
Oracle 词汇，什么是 mysql/SQL Server 相当于数据库
我需要一些词汇方面的帮助，我不经常使用 Oracle，但我熟悉 MySQL 和 SQL Server。我有一个应用程序需要升级和迁移，执行此操作的部分过程涉及导出到 XML 文件，允许安装程序创建新
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息
我主要使用 Ruby 来执行此操作，但到目前为止我的攻击计划如下: 使用 gems rdf、rdf-rdfa 和 rdf-microdata 或 mida 来解析给定任何 URI 的数据。我认为最好映

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章