gpt4 book ai didi

nlp - 如何找到 spaCy 模型的词汇量大小?

转载 作者:行者123 更新时间:2023-12-04 12:10:39 25 4
gpt4 key购买 nike

我试图找到大型英语模型的词汇量,即 en_core_web_lg ,我找到了三种不同的信息来源:

  • spaCy 的文档:685k 个键,685k 个唯一向量
  • nlp.vocab.__len__() : 1340242 # (词素数)
  • len(vocab.strings) : 1476045

  • 三者有什么区别?我无法在文档中找到答案。

    最佳答案

    最有用的数字是与词向量相关的数字。 nlp.vocab.vectors.n_keys告诉你有多少词向量和 len(nlp.vocab.vectors)告诉您有多少个唯一的词向量(多个标记可以引用 md 模型中的同一个词向量)。
    len(vocab)是缓存的词素数。在 mdlg模型大部分 1340242词素具有一些预先计算的功能(如 Token.prob ),但在此缓存中可以有额外的词素而没有预先计算的功能,因为在处理文本时可以添加更多条目。
    len(vocab.strings)是与标记和注释相关的字符串数量(如 nsubjNOUN ),所以它不是一个特别有用的数字。训练或处理中任何地方使用的所有字符串都存储在这里,以便在需要时可以将内部整数哈希转换回字符串。

    关于nlp - 如何找到 spaCy 模型的词汇量大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59515740/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com