gpt4 book ai didi

python - 词汇处理器功能

转载 作者:太空狗 更新时间:2023-10-29 20:39:24 24 4
gpt4 key购买 nike

我正在研究卷积神经网络的嵌入输入,我了解 Word2vec。然而,在 CNN text classification . dennybritz 使用函数 learn.preprocessing.VocabularyProcessor。在document .他们说它将文档映射到单词 ID 序列。我不太清楚这个功能是如何工作的。它是创建一个 ID 列表然后将 ID 映射到单词还是它有一个单词及其 ID 的字典,当运行函数时它只给出 ID?

最佳答案

假设您只有两个文档I like pizzaI like Pasta。你的整个词汇表由这些单词组成 (I, like, pizza, pasta) 对于词汇表中的每个单词,都有一个相关联的索引,如 (1, 2, 3, 4)。现在给定一个像 I like pasta 这样的文档,它可以被转换成一个向量 [1, 2, 4]。这就是 learn.preprocessing.VocabularyProcessor 所做的。参数 max_document_length 确保所有文档都由长度为 max_document_length 的向量表示,如果它们的长度小于 max_document_length 则通过填充数字和如果它们的长度大于 max_document_length 希望这对你有帮助

关于python - 词汇处理器功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39825043/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com