gpt4 book ai didi

machine-learning - 如何将文本转换为矢量

转载 作者:行者123 更新时间:2023-11-30 08:26:12 25 4
gpt4 key购买 nike

我正在学习分类。我读到有关使用向量的内容。但我找不到一种算法将带有单词的文本翻译为向量。是生成单词的哈希值并将 1 添加到向量中的哈希位置吗?

最佳答案

当大多数人谈论将文本变成feature vector时,它们的意思就是记录单词(标记)的存在。

对向量进行编码的两种主要方法。一种是明确的,即 0对于每个不存在的单词(但在您的词汇表中)。另一种方式是隐式的——就像 sparse matrix (但只是一个向量)---您只对频率值 >= 1 的术语进行编码.

词袋模型

最好的解释这一点的主要文章很可能是 bag of words model ,广泛用于自然语言处理应用程序。

显式 BoW 矢量示例:

假设你有词汇:

{brown, dog, fox, jumped, lazy, over, quick, the, zebra}

这句话"the quick brown fox jumped over the lazy dog"可以编码为:

<1, 1, 1, 1, 1, 1, 1, 2, 0>

记住,位置很重要。

这句话"the zebra jumped" ---即使它的长度较短---也会被编码为:

<0, 0, 0, 1, 0, 0, 0, 1, 1>

显式方法的问题在于,如果您有数十万个词汇术语,则每个文档也将包含数十万个术语(大部分值为零)。

隐式 BoW 向量示例:

在本例中,句子 "the zebra jumped"可以编码为:

<'jumped': 1, 'the': 1, 'zebra': 1>

其中顺序是任意的。

关于machine-learning - 如何将文本转换为矢量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17053459/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com