gpt4 book ai didi

python - 如何在Python中实现Bag of Words特征哈希?

转载 作者:行者123 更新时间:2023-11-30 09:24:09 25 4
gpt4 key购买 nike

我正在尝试对几千个文档进行分类,每个文档有几行。我以前使用过常规的词袋,但这次想使用哈希技巧,但我在理解其实现时遇到了困难。我的数据中有大约 8000 个唯一单词,所以我认为 128*128 应该足够了

我主要使用以下来源:

http://blog.someben.com/2013/01/hashing-lang/ http://www.hpl.hp.com/techreports/2008/HPL-2008-91R1.pdf

这是我为每个文档生成特征向量的函数:

import mmh3

def add_doc(text):
text = str.split(text)
d_input = dict()
for word in text:
hashed_token = mmh3.hash(word) % 127
d_input[hashed_token] = d_input.setdefault(hashed_token, 0) + 1
return(d_input)

现在我一定是做错了什么,或者没有理解某个地方的某些东西,因为似乎存在大量的冲突。任何帮助将不胜感激

最佳答案

您不应该将哈希值修改为 % 127,这只会生成 127 个可能的输出,而根据您的 8000 个唯一单词推理,您似乎需要 128^2 个可能的输出。

关于python - 如何在Python中实现Bag of Words特征哈希?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14916145/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com