gpt4 book ai didi

machine-learning - 乘法滤波器或更标准的加法加权

转载 作者:行者123 更新时间:2023-11-30 08:44:36 25 4
gpt4 key购买 nike

我有几个功能可以投票决定某个数据项是否值得向我的用户显示。您可以将它们中的每一个视为 0 到 1 之间的数字,其中 1 表示良好,0 表示不值得向我的用户展示。我刚刚做了一件非常标准的事情,为每个属性选择一个权重,并执行加权和来确定做出决策的单个指标(很像单个感知单元)。

但是,有时不同的属性会相互压倒并产生不良结果。我认为基本问题是真正的最优函数是相当非线性的,当然这些加权和给出的唯一规则根据定义是线性的。为了尝试解决这个问题,在加权总和中变得“强大”的功能之一上,我用它来乘以整个单个指标。这使得这个重要的功能可以充当“看门人”——如果这个功能太低,它本身就可以阻止数据流出。

要通过执行标准加权和来实现类似的效果,我必须将该特征的权重设置得如此之高,以至于其他特征基本上没有发言权......基本上它又回到了最佳特征的非线性规则,因为此功能在某些范围内可能非常重要,但在其他范围内则不然。

我想知道如何使用一个功能来乘以这样的整个结果?加权和是最常用的东西(除了简单性之外)是否有特定的原因?

PS。一旦我有了更多的数据,我可能会使用标准的机器学习技术来实际学习规则,但现在我正在样本数据集上手动训练它。我现在追求简单,同时仍努力使其正常工作。

最佳答案

你的问题提得很好。

你提到的是一个重要的问题。从理论和实践的角度来看都很重要:我应该如何使用我的功能来获得最佳结果?

让我举个例子,对于词性标记文档的来源是没有用的,因为无论文章是否来自(文章来源)WSJ,大多数单词都以相同的方式使用。或来自Wired 。因此,像文章来源这样的功能对于使用你的行话来说是“过于强大”的。但有时你会遇到像“monitor”这样的词,如果你知道它出现在哪里,你几乎就知道如何标记它(如果它来自《华尔街日报》:动词,如果它来自《连线》:名词)。

文档来源功能乍一看并不是一个有用的功能,但它是关于我们尝试标记的单词的有用元功能。用领域适应的术语来说,它描述了领域的特征。

针对此类问题,您需要查看的一些关键字是:

另一个有用的信息是线性分类器在捕获这些交互方面特别糟糕,您甚至将其描述为非线性。如果可能的话,您至少应该使用二次或 RBF 或更复杂的东西,至少有希望捕获它。

关于machine-learning - 乘法滤波器或更标准的加法加权,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12024888/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com