gpt4 book ai didi

scikit-learn - 文本语料库中单词的一种热编码

转载 作者:行者123 更新时间:2023-12-04 04:19:41 25 4
gpt4 key购买 nike

我如何使用 tensorflow 创建一个单词的热编码,每个单词由词汇量大小的稀疏向量表示,该特定单词的索引等于 1 ?

有点像

oneHotEncoding(words = ['a','b','c','d']) -> [[1,0,0,0],[0,1,0,0],[0 ,0,1,0],[0,0,0,1]] ?

最佳答案

Scikits 一个热编码器采用一个整数数组 ( http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html )。在您的示例的基础上,您可以使用字典将单词映射到整数并从那里开始:

import numpy as np
from sklearn.preprocessing import OneHotEncoder
wdict = {'a': 0, 'b': 1, 'c': 2, 'd': 3}
dictarr = np.asarray(wdict.values()).reshape(-1, 1)
enc = OneHotEncoder()
enc.fit(dictarr)
enc.transform([[2]]).toarray()

产生

array([[ 0.,  0.,  1.,  0.]])

关于scikit-learn - 文本语料库中单词的一种热编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41503474/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com