gpt4 book ai didi

hash - 特征哈希

转载 作者:行者123 更新时间:2023-11-30 08:41:14 25 4
gpt4 key购买 nike

我知道feature hashing是一种向量化特征的技术;这对于机器学习目的来说很常见。当您想在发生冲突时跟踪术语频率时,我仍然对它的工作原理感到困惑。让我们遵循 Luis Argerich 在 this 中给出的相同示例关联。

假设您的文本是:“the Quick Brown Fox”,并假设您有下一个哈希函数:

h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3

你的最终向量将是这样的:(1,2,0,1,0)

现在假设您的文字是:“快快快快”现在最终的向量将是这样的:(1,6,0,1,0)

我的问题是,我如何知道brown只出现一次而quick出现5次?我如何跟踪它?

最佳答案

My question is, how do I realize that brown appears just once and quick appears 5 times? how do I track that?

你不知道。这就是散列的全部技巧。它统一某些事物、损失信息,以便您可以获得其他好处。如果您想跟踪所有内容,您应该只使用词袋,而不是散列。

另一种选择是更复杂的散列方法,例如 LSH 技术中使用的方法,它使用散列函数族来重建最终的相似性,通过显示给定足够大的散列函数样本 - 它收敛到真正的相似性。

关于hash - 特征哈希,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37529992/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com