gpt4 book ai didi

python - Tf-Idf vectorizer 从行而不是单词分析向量

转载 作者:太空宇宙 更新时间:2023-11-04 05:26:08 25 4
gpt4 key购买 nike

我正在尝试分析由行给出的文本,我希望在 python 中使用 sckit-learn 包的 TF-IDF-vectorization 对行进行矢量化。问题是矢量化可以通过单词或 n-gram 完成,但我希望它们针对行完成,并且我已经排除了将每一行矢量化为单个单词的解决方法(因为那样的话并且不会考虑它们的含义)。

翻阅文档我没有找到如何做到这一点,那么有没有这样的选择?

最佳答案

您似乎误解了 TF-IDF 向量化的作用。对于每个词(或 N-gram),它为该词分配一个权重,该权重是词频 (TF) 及其在文档中其他词的倒数频率 (IDF) 的函数。将它用于单词(例如,知道“披萨”这个词出现的频率)或 N-gram(例如,“奶酪披萨”代表 2 克)是有意义的

现在,如果你在线上做,会发生什么?除非你碰巧有一个语料库,其中的行完全重复(例如“我需要 Python 方面的帮助”),否则你的 TF-IDF 转换将是垃圾,因为每个句子在文档中只出现一次。如果你的句子确实总是与标点符号相似,那么就所有意图和目的而言,它们不是你语料库中的句子,而是单词。这就是为什么没有选择用句子做 TF-IDF 的原因:它在实践或理论上的意义为零。

关于python - Tf-Idf vectorizer 从行而不是单词分析向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38615088/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com