gpt4 book ai didi

text - 默认情况下,查询固有地驻留在高维空间中的文本分类数据

转载 作者:行者123 更新时间:2023-11-30 09:24:14 26 4
gpt4 key购买 nike

我读过很多支持向量机书籍和技术论文,这是许多作者为大多数文本分类任务选择线性内核所做的假设。

他们说,由于文本分类问题中的数据已经驻留在高维空间中,因此在尝试使用支持向量机对数据进行分类时选择线性核来分离数据就足够了。

我对这个假设的理解如下:

在任何文本分类任务中,为分类任务选择的特征数量(在许多情况下,我们在文档中寻找的某些重要单词)大多会非常高,这就是数据驻留在高维空间中。

我对假设的理解准确吗?如果没有,我希望有人尝试阐明这个假设。

任何帮助将不胜感激。

最佳答案

据我了解,您是正确的。

  • 每个特征对应一个维度。
  • 更高的维度 => 更高的分离概率。
  • 非线性核仅将数据(非线性)转换为更高维度以增加分离概率,因此在具有许多特征的情况下不需要。

我可以推荐阅读有关 SVM 和类似内容的讲座:http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php这是我所知道的该主题中最好的资源。简短而切题。

关于text - 默认情况下,查询固有地驻留在高维空间中的文本分类数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11724956/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com