- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我已经标记了二维数据。集合中有 4 个标签,我知道每个点与其标签的对应关系。我想,给定一个新的任意数据点,找出它具有 4 个标签中的每一个的概率。它必须属于一个且仅属于一个标签,因此概率之和应为 1。
到目前为止,我所做的是在与每个标签关联的数据点上训练 4 个独立的 sklearn GMM (sklearn.mixture.GaussianMixture
)。应该注意的是,我不希望训练具有 4 个组件的单个 GMM,因为我已经知道标签,并且不想以比我已知标签更糟糕的方式重新聚类。 (似乎有一种方法可以为 fit()
函数提供 Y=
标签,但我似乎无法让它工作)。
在上图中,点按其已知标签着色,等高线表示适合这 4 组点的四个独立 GMM。
对于一个新点,我尝试通过几种方式计算其标签的概率:
GaussianMixture.predict_proba()
:由于每个独立的 GMM 只有一个分布,因此这只会为所有模型返回 1 的概率。
GaussianMixture.score_samples()
:根据文档,此函数返回“每个样本的加权对数概率”。我的程序是,对于一个新点,我从代表上述每个分布的四个独立训练的 GMM 中的每一个调用此函数四次。我在这里确实得到了半合理的结果——通常是正确模型的正数和三个不正确模型中每一个的负数,交叉分布边界附近的点的结果更加困惑。这是一个典型的明确结果:
2.904136, -60.881554, -20.824841, -30.658509
这个点实际上与第一个标签相关联,并且最不可能是第二个标签(离第二个分布最远)。我的问题是如何将上述分数转换为总和为 1 的概率,并准确表示给定点属于四个分布之一且仅属于其中一个的概率?鉴于这是 4 个独立的模型,这可能吗?如果没有,是否有另一种我忽略的方法可以让我根据已知标签训练 GMM,并提供总和为 1 的概率?
最佳答案
一般来说,如果你不知道分数是如何计算的,但你知道分数和概率之间存在单调关系,你可以简单地使用softmax函数来近似一个概率,带有一个可选的温度变量控制分布的尖峰度。
让 V
成为您的分数列表,让 tau
成为温度。然后,
p = np.exp(V/tau) / np.sum(np.exp(V/tau))
是你的答案。
PS:幸运的是,我们知道 sklearn GMM 评分是如何工作的,使用 tau=1
的 softmax 就是您的确切答案。
关于python - 将独立的 sklearn GaussianMixture 对数概率分数转换为总和为 1 的概率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53484210/
我基本上有三个表: hunt_c_usershunt_c_collected_eggshunt_c_achievements 我目前只使用 hunt_c_users 和 hunt_c_collecte
我已经计算了不同表中计数的总和。这会执行两次,每个 performanceID 一次。现在我想得到两个总和的总和。 下面是我目前做的两个总和的代码: SELECT SUM((COUNT (Bo
我有一个对 2 个值求和的脚本。我计划添加更多值(value),但首先我需要让它发挥作用。人们告诉我给他们 NUMBER 值,所以我这样做了,但现在它甚至没有给出输出。 base = 0; $("#F
我正在尝试计算在我们的数据库中跟踪的花费总额。每个订单文档包含一个字段“total_price” 我正在尝试使用以下代码: db.orders.aggregate({ $group: {
给定 Excel 2013(或更高版本)中的 2 个命名表: tbl发票 ID InvRef Total 1 I/123 45 2 I/234
希望你们一切都好。我来这里是因为我从今天早上开始就试图解决一个问题,我再也受不了了。 这就是上下文:我有一个 excel 工作簿,其中有不同的工作表,其中包含不同国家/地区的不同商业计划。我的目标是制
我有一份报告显示客户订购的产品及其价格: CompanyA Product 7 14.99 CompanyA Product 3 45.95 CompanyA Prod
我使用此python客户端: https://github.com/ryananguiano/python-redis-timeseries 如何汇总所有匹配? ts = TimeSeries(cli
希望创建一个总和和计数公式,该公式将自动调整以适应范围内插入的新行。 例如,如果我在单元格 D55 中有公式 =SUM(D17:D54)。每次我在该范围内插入新行时,我都需要更改公式的顶部范围来解释它
所以,我需要聚合日期相同的行。 到目前为止,我的代码返回以下内容: date value source 0 2018-04-08 15:52:26.1
我有数字输入 数量约为 30 我需要将它们全部汇总到一个字段 我拥有的在下面 查看:
您好,我正在尝试根据以下数据计算过去三个月中出现不止一次的不同帐户 ID 的数量;我想要 2 作为查询结果,因为 test1@gmail.com 和 test2@gmail.com 出现超过 1 次。
我有两个带有以下字段的表: ... orders.orderID orders.orderValue 和 payments.orderID payments.payVal 在 payments.pay
我想按 image_gallery 和 video_gallery 两列的 DESC 进行排序。 SELECT b.*, c.title as category, (S
实际上我的原始数据库为 SELECT sum(data1,data2) as database_value,sum(data3,data4) as database_not_value from t
我试图获取三个分数中每一个的值并将它们相加并显示在“总计:”中。我的问题是,我不知道如何做到这一点,以便每次其中一个分数值发生变化时,相应的总分值也会随之变化。 我可以在某处调用“onchange”来
如何获得按第一个值分组的元组列表中第二个和第三个值的总和? 即: list_of_tuples = [(1, 3, 1), (1, 2, 4), (2, 1, 0), (2, 2, 0)] expec
我正在尝试将我的列表中的整数转换为列表的总和和平均值,并说明任何低于冰点 F<32 的温度。每当我尝试获取总和或平均值时,我都会收到错误提示“+: 'int' 和 'str' 不支持的操作数类型”。我
在我的 ios 项目中,我使用了两个实体 (CoreData):具有一对多关系的 Person 和 Gifts 我知道如何计算给一个人的礼物总和: NSDecimalNumber *orderSum=
我有两个表(输入和类别): CREATE TABLE categories ( iId INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, sNam
我是一名优秀的程序员,十分优秀!