gpt4 book ai didi

string - 以字符串数组作为输入向量的分类

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:03:01 25 4
gpt4 key购买 nike

我有一个与机器学习任务相关的问题。问题是根据字符串向量预测一个值。想到的最直接的想法是使用线性回归。但是,由于我的输入是非数字的,我想我会使用我的字符串的哈希码,但我在这里的某个地方读到结果将毫无意义。另一个想法是使用字母表中的字母位置以 26 进制编码我的字符串,但我还没有测试过,因此寻求建议。

有人可以推荐一种好的(有意义的)字符串编码方式,以便它们可以用于线性回归算法吗?或者建议另一种适合该任务的机器学习算法。

总结一下:分类器的输入将包含一个固定大小的字符串数组(数组是固定长度的,而不是字符串),输出应该是 0-100 范围内的整数。训练数据将由具有相应数字(y 值)的此类输入数组(x 值)的集合组成。

最佳答案

使用向量空间模型(如 word2vec)将每个 M 字符串转换为 N 维向量或 GloVe .然后将这些向量连接成一个包含 M*N 分量的向量。可选择将每个组件标准化为例如0-1。然后,您应该能够对结果运行任何回归(或分类)算法,例如逻辑回归。

您也可以尝试聚类方法,将词汇表中的所有单词聚类到 N 聚类中,例如在词向量上使用 k-means 或使用 brown clustering .然后,您可以用一个热向量(即 N-1 零和该词簇索引处的单个 1)表示输入数组中的每个词。然后再次连接它们并对结果进行回归。

关于string - 以字符串数组作为输入向量的分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31269253/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com