gpt4 book ai didi

Spacy 2.0 en_vectors_web_lg 与 en_core_web_lg

转载 作者:行者123 更新时间:2023-12-04 17:43:36 27 4
gpt4 key购买 nike

en_core_web_lg中给出的词向量有什么区别?和 en_vectors_web_lg ?键的数量不同:1.1m vs 685k。我认为这意味着 en_vectors_web_lg 通过维护形态信息具有更广泛的覆盖范围,从而在某种程度上导致更多不同的标记,因为它们都在常见的爬网语料库上进行了训练,但具有不同数量的标记。

最佳答案

en_vectors_web_lg包中包含原始 GloVe 模型提供的每个向量。 en_core_web_lg模型使用 v1.x en_core_web_lg 中的词汇表该模型从内存中删除了在 100 亿字的 Reddit 评论转储中出现少于 10 次的所有条目。

理论上,大部分被移除的向量应该是 spaCy 分词器永远不会产生的东西。然而,早期使用完整 GloVe 向量进行的实验的得分确实略高于当前的 NER 模型——所以我们实际上可能因为丢失了额外的向量而错过了一些东西。我将对此进行更多实验,并可能切换lg模型以包含未修剪的向量表,尤其是现在我们有 md模型,它比当前的 lg 取得了更好的折衷。包裹。

关于Spacy 2.0 en_vectors_web_lg 与 en_core_web_lg,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47183876/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com