gpt4 book ai didi

python - 将 tf-idf 与 FastText 向量结合使用

转载 作者:太空宇宙 更新时间:2023-11-03 11:36:36 24 4
gpt4 key购买 nike

我对将 tf-idf 与 FastText 库一起使用很感兴趣,但我找到了一种处理 ngram 的合乎逻辑的方法。我已经将 tf-idf 与 SpaCy 向量一起使用,因为我发现了几个这样的例子:

但对于 FastText 库,我不是很清楚,因为它的粒度不是那么直观,E.G.

对于一般的 word2vec 方法,我将为每个单词设置一个向量,我可以计算该向量的词频并相应地除以它的值。

但是对于fastText,同一个词会有多个n-gram,

“收听最新新闻摘要”将由滑动窗口生成 n-gram,如:

list ste te ten tot het...

这些 n-gram 由模型内部处理,所以当我尝试时:

model["Listen to the latest news summary"] 

我直接得到了最终的向量,因此我所拥有的是在提供模型之前将文本拆分为 n-grams:

model['lis']
model['ist']
model['ten']

并从那里制作 tf-idf,但这似乎是一种低效的方法,有没有一种标准的方法可以将 tf-idf 应用于像这样的向量 n-gram。

最佳答案

我会让 FastText 处理三字母组,但继续在单词级别构建 tfidf 加权嵌入。

也就是你发送

model["Listen"]
model["to"]
model["the"]
...

到 FastText,然后使用您的旧代码获取 tf-idf 权重。

无论如何,最好知道 FastText 本身在处理句子时是否考虑了 word 结构,或者它真的只将其作为一个三元组序列(混合连续的单词)来处理。如果后者为真,那么对于 FastText,您会将句子分成单独的词,从而丢失信息。

关于python - 将 tf-idf 与 FastText 向量结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58069777/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com