gpt4 book ai didi

处理来自多个容易出错的来源的数据聚合的算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:26:44 25 4
gpt4 key购买 nike

我正在汇总来自多个不同来源的音乐会列表,其中没有一个既完整又准确。一些数据来自用户(例如在 last.fm 上),可能不正确。其他数据源非常准确,但可能不包含所有事件。我可以使用事件日期和城市/州等属性来尝试匹配来自不同来源的列表。我想合理地确定这些事件是有效的。使用尽可能多的不同来源来验证容易出错的来源上的列表似乎是一个很好的策略。

我不确定它的技术术语是什么,因为我想进一步研究它。是数据挖掘吗?有现成的算法吗?我知道解决方案永远不会完全准确。

最佳答案

这是一种在统计中定位它的方法 - 具体来说,它使用隐马尔可夫模型 (http://en.wikipedia.org/wiki/Hidden_​​Markov_model):

1) 使用您的匹配过程生成可能事件的清理列表。考虑将每个事件标记为“真实”或“虚假”,即使这些标记对您是隐藏的。您可能会想象某些事件源会产生它们,根据未知参数的概率将它们生成为“真”或“假”。

2) 将未知参数与每个列表来源相关联。这些给出了该源将报告由事件源产生的真实事件的概率,以及它将报告由该源产生的虚假事件的概率。

3) 请注意,如果您能看到“真”或“假”的标记,您就可以轻松计算出每个来源的概率。不幸的是,您当然看不到这些隐藏的标记。

4) 我们将这些隐藏标记称为“潜在变量”,因为这样您就可以使用 http://en.wikipedia.org/wiki/Em_algorithm从随机开始爬山到有前途的解决方案。

5) 您显然可以通过将事件分成几类并提供列表参数的来源使问题变得更加复杂,这使得它们比其他事件更有可能报告某些类别的事件。如果您拥有对某些事件极为可靠的来源,这可能会很有用。

关于处理来自多个容易出错的来源的数据聚合的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6119146/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com