gpt4 book ai didi

graph - 按照幂律分布对多个变量进行标准化/缩放/归一化以用于线性组合的正确方法

转载 作者:行者123 更新时间:2023-12-04 15:05:41 25 4
gpt4 key购买 nike

我想将社交网络图中节点的一些指标组合成一个值,用于对节点进行排序:
in_degree + betweenness_centrality = informal_power_index
问题是in_degreebetweenness_centrality在不同的尺度上测量,比如 0-15 vs 0-35000 并遵循幂律分布(至少绝对不是正态分布)

是否有一种重新调整变量的好方法,以便在确定 informal_power_index 时一个不会支配另一个变量? ?

三种明显的方法是:

  • 标准化变量(减去 mean 并除以 stddev)。这似乎会过多地压缩分布,隐藏长尾中的值与峰值附近的值之间的巨大差异。
  • 通过减去 min(variable) 将变量重新缩放到范围 [0,1]并除以 max(variable) .这似乎更接近于解决问题,因为它不会改变分布的形状,但也许它不会真正解决问题?尤其是手段会有所不同。
  • 通过将每个值除以 mean(variable) 来均衡均值.这不会解决尺度的差异,但也许平均值对比较更重要?

  • 还有其他想法吗?

    最佳答案

    您似乎对基础分布有很强的了解。自然的重新缩放是用其概率替换每个变量。或者,如果您的模型不完整,请选择一个近似实现的转换。如果做不到这一点,这里有一个相关的方法:如果您有大量单变量数据可以从中构建直方图(每个变量的),您可以根据它是否在 0-10% 百分位或10-20%-百分位 ...90-100% 百分位。这些转换后的变量通过构造在 1,2,...,10 上具有均匀分布,您可以随意组合它们。

    关于graph - 按照幂律分布对多个变量进行标准化/缩放/归一化以用于线性组合的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/703924/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com