sql - 加权平均死锁 : Value depending on value-6ren

sql - 加权平均死锁 : Value depending on value

转载作者：塔克拉玛干更新时间：2023-11-03 02:43:27

一些背景有助于首先解释这个难题:

我有一个数据库，通过将用户提交的值与全局平均值进行比较来估计用户的可靠性。值介于 0 和 1 之间。所以，在哪里:

该特定用户的可靠性 = r
此特定用户提交值的平均值 = a
全局，“商定”平均值 = g

可靠性:

r = 1 - ABS(g - a)

每个用户的可靠性是这样计算的。现在，“商定”的全局平均值 g 是使用加权平均值计算的，其中权重为 r，值为 a。如果总共有3个用户:

  g = ((r1 * a1) + (r2 * a2) + (r3 * a3)) / (r1 + r2 + r3)

问题是，一旦用户有了很高的可信度，他们就完全垄断了，没有新的值(value)观可以改变这一点。举个例子:

g was initially 0.5
user1 r was initially 0.5
user2 r was initially 0.5
user3 r was initially 0.5

现在，他们将一个一个地提交值，然后观察会发生什么:

user1 a is submitted, 1.0
user1 reliability goes slightly down because it differs from g (0.5)
user2 a is submitted, 1.0
user1 and user2 reliability go up to 100%, g is now 1.0.
user3 a is submitted, 0.0
user3 reliability goes down to 0%. g is still 1.0.

由于 user3 的可靠性非常低，因此权重对 g 没有任何影响。 User3 的可靠性下降，因为提交的值与全局平均值完全不同。怎样做才能使 user3 的提交对最终值产生一些影响？也许我需要添加一些常数，以便可靠性永远不会完全为零(但接近)？

现在，对于 SQL 代码。我添加了一个演示问题的 SQL fiddle : http://sqlfiddle.com/#!3/d3fd1/21我已经抽象了代码以使其尽可能短，但它仍然很长。

表创建、存储过程和触发器:

-- Stores user info
CREATE TABLE dbo.Users(
    [UserID] [int] NOT NULL,
    [Reliability] [float] NOT NULL
  )

-- Contains global averages from all users who submitted data
CREATE TABLE dbo.GlobalSubmission(
    GlobalSubmissionID  [int] NOT NULL,
    Name [varchar](50) NULL,
    GlobalAverage [float] NOT NULL,
)

CREATE TABLE dbo.UserSubmission(
    SubValue float NOT NULL,
    GlobalSubmissionID int NOT NULL,
    UserID int NOT NULL,
)


GO

--Calculate the "ideal value", used for GlobalSubmission.
CREATE FUNCTION dbo.IdealValueCalc(@globalSubmissionID INT)
RETURNS int
AS
BEGIN

DECLARE @tmpReliability TABLE (SubValue float, Reliability float)


INSERT INTO @tmpReliability
    SELECT AVG(us.SubValue) as SubValue, usr.Reliability Reliability FROM UserSubmission us
    JOIN Users usr 
    ON us.UserID = usr.UserID
    WHERE GlobalSubmissionID = @GlobalSubmissionID
    GROUP BY us.UserID, usr.Reliability

--Perform weighted mean calculations.
Return (SELECT SUM(SubValue * Reliability) / SUM(Reliability) FROM @tmpReliability)
END
go


--Calculate the reliability of one user.
CREATE FUNCTION dbo.GetReliabilityForUser
(@userID int)
Returns Float
AS BEGIN
Return (SELECT 1 - AVG(ABS(db.userAvg - db.GlobalAverage))
    FROM (
      SELECT pmd.UserID,
            gs.GlobalAverage, 
            AVG(pmd.SubValue) as userAvg
      FROM UserSubmission pmd
      -- Joins average value for each user with "ideal" value from GlobalSubmission
      JOIN GlobalSubmission gs 
        ON gs.GlobalSubmissionID = pmd.GlobalSubmissionID
        WHERE pmd.UserID = 1
      GROUP BY pmd.UserID, gs.GlobalSubmissionID, gs.GlobalAverage
     ) db
     GROUP BY db.UserID)
End
go



CREATE TRIGGER trg_SubmissionComputation
ON UserSubmission 
AFTER INSERT, UPDATE
AS BEGIN
    --Calculate this uer's reliability
    DECLARE @userID int = (SELECT TOP(1) UserID FROM inserted)
    DECLARE @userReliability float = dbo.GetReliabilityForUser(@userID)

    UPDATE Users
    SET Reliability=@userReliability
    WHERE UserID = @userID

    --Recalculate globalSubmission values:
    DECLARE @globalSubmissionID int = (SELECT TOP(1) GlobalSubmissionID FROM inserted)
    DECLARE @globalAverage float = dbo.IdealValueCalc(@globalSubmissionID)
        --The global average for this set of submissions has been recalculated. Now inserting:

    UPDATE GlobalSubmission
    SET GlobalAverage = @globalAverage 
    WHERE GlobalSubmissionID = @globalSubmissionID
END
GO

测试它:

--Creating 3 new users
INSERT INTO Users
(UserID, Reliability)
values 
(1, 0.5),
(2, 0.5),
(3, 0.5)
GO

--Creating a new GlobalSubmission
INSERT INTO GlobalSubmission
(GlobalSubmissionID, NAME, GlobalAverage)
values (1, 'BOILER2B' , 0.5)
GO

--First, we will submit values of 1 for two users:
INSERT INTO UserSubmission values (1.0, 1, 1); -- Value: 1.0, User 1, Submission 1
GO
INSERT INTO UserSubmission values (1.0, 1, 2); -- Value: 1.0, User 2, Submission 1
GO
INSERT INTO UserSubmission values (1.0, 1, 1); -- Value: 1.0, User 1, Submission 1
GO
INSERT INTO UserSubmission values (1.0, 1, 2); -- Value: 1.0, User 2, Submission 1
GO


--Now, we will submit values of 0 for the third user:
INSERT INTO UserSubmission values (0.0, 1, 3); -- Value: 0.0, User 3, Submission 1
GO
INSERT INTO UserSubmission values (0.0, 1, 3); -- Value: 0.0, User 3, Submission 1
GO

SELECT * FROM Users -- This results in 0% reliability for the last user.

--If we create new users and add them, the reliability won't budge:
INSERT INTO Users
(UserID, Reliability)
values 
(4, 0.5),
(5, 0.5),
(6, 0.5),
(7, 0.5),
(8, 0.5)
GO


INSERT INTO UserSubmission values (0, 1, 4); -- Value: 0, User 4, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 5); -- Value: 0, User 5, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 6); -- Value: 0, User 6, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 7); -- Value: 0, User 7, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 8); -- Value: 0, User 8, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 4); -- Value: 0, User 4, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 5); -- Value: 0, User 5, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 6); -- Value: 0, User 6, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 7); -- Value: 0, User 7, Submission 1
GO
INSERT INTO UserSubmission values (0, 1, 8); -- Value: 0, User 8, Submission 1
GO


SELECT * FROM Users -- Even though we've added loads of new users suggesting 0 as value, the final value
-- is remaining 1.0, because when a new value (0) is submitted, it varies too much from the global average
--(1), causing the reliability of that user to go down, and that user ends up making no influence on the
-- global average!

最佳答案

这是一个替代估计，它仍然有点临时但不会产生权重 0。

1) 为每个用户生成一个指数衰减的平方误差估计。从一个可调的任意估计 K 开始。然后每次用户产生一个值 a 并且组均值为 g 时产生一个平方误差 E = (a - g) * (a - g) 并将平方误差的估计从之前更改为after = before * x + E * (1 - x) 其中 x 是另一个介于 0 和 1 之间的可调常数，它调整旧估计衰减的速度。这个估计值永远不会完全降到零，但由于下一步的原因，最好不要让它下降到某个可调值以下。

2) 要获得新的全局估计值，请像以前一样使用加权平均值，但使权重成为该用户当前平方误差估计值的倒数。

如果所有用户都是无偏的，那么指数衰减的估计最终可能会成为每个用户平均平方误差的合理估计，然后权重将是估计的线性组合，它可以最小化全局估计的预期平方误差。检查:如果不同用户 i 从同一来源提交了 Ni 估计值的平均值，那么每个用户估计值的均方误差将为 1/Ni，因此乘以它的倒数会将他们的平均值变成每个用户产生的原始估计值之和用户和加权估计最终只会合并估计。

关于sql - 加权平均死锁 : Value depending on value，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15955931/

文章推荐： algorithm - 排行榜的高效数据结构

文章推荐： seo - 如何删除谷歌结果中带有参数的网址

文章推荐：人类高耸的算法

文章推荐： web - 哪个最好？域重定向或别名？

javascript - 将 json 编码的字符串转换为 [value, value],[value, value]
我正在尝试使用 flot 绘制 SQL 数据库中的数据图表，这是使用 php 收集的，然后使用 json 编码的。目前看起来像: [{"month":"February","data":482},
php - php数组的结果是[value][value]，我怎样才能得到像[value,value]这样的结果
我有一个来自 php 行的 json 结果，类似于 ["value"]["value"] 我尝试使用内爆函数，但得到的结果是“value”“value” |id_kategori|created_at
javascript - 为什么 select.setAttribute ('value' ,value) 产生与 select.value=value 不同的结果？
脚本 1 将记录 two 但浏览器仍会将 select 元素呈现为 One。该表单还将提交值 one。脚本 2 将记录、呈现和提交两个。我希望它们是同义词并做同样的事情。请解释它们为何不同，以及我
Python如何做列表字典的字典的.values().values()
我的python字典结构是这样的: ips[host][ip] 每行 ips[host][ip] 看起来像这样: [host, ip, network, mask, broadcast, mac, g
c# - 这是什么意思/做什么？ "value < 0 ? -value : value;"
在 C# 中我正在关注的一本书对设置和获取属性提出了这样的建议: double pri_test; public double Test { get { return pri_test; }
c++ - if (mask & VALUE) 还是 if ((mask & VALUE) == VALUE)？
您可能熟悉 enum 位掩码方案，例如: enum Flags { FLAG1 = 0x1, FLAG2 = 0x2, FLAG3 = 0x4, FLAG4 = 0x8
java - (String)value 和 value.toString() ， new Long(value) 和 (Long)value 之间的区别
在一些地方我看到了(String)value。在一些地方value.toString() 这两者有什么区别，在什么情况下我需要使用哪一个。 new Long(value) 和 (Long)value
javascript - 当 "!value ? null : value[0]"不等同于 "value ? value[0] : null"时，Javascript 中是否存在任何时间？
有没有什么时候 var result = !value ? null : value[0]; 不会等同于 var result = value ? value[0] : null; 最佳答案在此处将
javascript - 如何修复 "My first scan value is not same as my second scan value and the value scan in HTML is not same as value scan in notepad?"
我正在使用扫描仪检测设备。目前，我的条形码的值为 2345345 A1。因此，当我扫描到记事本或文本编辑器时，输出将类似于 2345345 A1，这是正确的条形码值。问题是: 当我第一次将条形码扫描
c# - 如何转换 Json key :value into value:value in C#?
我正在读取 C# 中的资源文件并将其转换为 JSON 字符串格式。现在我想将该 JSON 字符串的值转换为键。例子， [ { "key": "CreateAccount", "text":
Python( Pandas ): replace value if previous value is same as next value
我有以下问题: 我有一个数据框，最多可能有 600 万行左右。此数据框中的一列包含某些 ID。 ID NaN NaN D1 D1 D1 NaN D1 D1 NaN NaN NaN NaN D2 NaN
java - (Float value + Integer value + long value) 如何给出意想不到的结果？
import java.util.*; import java.lang.*; class Main { public static void main (String[] args) thr
android - values、values-v11 和 values-v14 文件夹的样式和主题
我目前正在开发我的应用程序，使其设计基于 Holo 主题。在全局范围内我想做的是工作，但我对文件夹 values、values-v11 和 values-v14. 所以我知道: values 的目标是
java ； HttpURL连接；查询项重复为 `paramName=value, value` 。预计为 `paramName=value`
我遇到了一个非常奇怪的问题。我的公司为我们的各种 Assets 使用集中式用户注册网络服务。我们一般通过HttpURLConnection使用请求方法GET向Web服务发送请求，通过qs设置参数。这
mySQL UPDATE value based on SELECT value of value +1 递增列值
查询: UPDATE nominees SET votes = ( SELECT votes FROM nominees WHERE ID =1 ) +1 错误: You can't specify
javascript - mathjs 评估错误 : (intermediate value)(intermediate value)(intermediate value) is not a function
如果我运行一段代码: obj = {}; obj['number'] = 1; obj['expressionS'] = 'Sin(0.5 * c1)'; obj['c
android - 错误 : String types not allowed (at 'fail' with value) @values/values. xml
我正在为我的应用创建一个带有 Twitter 帐户的登录页面。当我构建我的项目时会发生上述错误。 values/strings.xml @dimen/abc_text_size_medium
mysql - View 中的 SUM(table2.value * table2.value) (+ table1.value)
我在搜索引擎中使用以下 View : CREATE VIEW msr_joined_view AS SELECT table1.id AS msr_id, table1.msr_number, tab
xhtml - 验证错误 "Value Error : background-position Too many values or values are not"如何解决？
为什么验证会返回此错误。如何解决？ ul#navigation li#navigation-3 a.current Value Error : background-position Too
Python 数据帧 : find previous row's value before a specific value with same value in other columns
我有一个数据名如下 import pandas as pd d = { 'Name' : ['James', 'John', 'Peter', 'Thomas', 'Jacob', 'Andr

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

sql - 加权平均死锁 : Value depending on value