python - 如何使用非唯一的 bin 边缘进行 qcut？-6ren

python - 如何使用非唯一的 bin 边缘进行 qcut？

转载作者：IT老高更新时间：2023-10-28 20:35:12

30

4

我的问题和上一个一样:

Binning with zero values in pandas

但是，我仍然想在分位数中包含 0 值。有没有办法做到这一点？换句话说，如果我有 600 个值，其中 50% 是 0，其余的值在 1 到 100 之间，我将如何对分位数 1 中的所有 0 值进行分类，然后对其余的非零值进行分类在分数标签 2 到 10 中(假设我想要 10 个分数)。我可以将 0 转换为 nan，将剩余的非 nan 数据qcut 为 9 个分位数(1 到 9)，然后将 1 添加到每个标签(现在是 2 到 10)并手动将所有 0 值标记为分位数 1？即使这也很棘手，因为在我的数据集中，除了 600 个值之外，我还有另外几百个可能已经是 nan 在我将 0 转换为 nan 之前。

14 年 1 月 26 日更新:

我想出了以下临时解决方案。不过，这段代码的问题是，如果高频值不在分布的边缘，那么它会在现有的一组 bin 中间插入一个额外的 bin，并把所有东西都扔掉一点(或很多)。

def fractile_cut(ser, num_fractiles):
    num_valid = ser.valid().shape[0]
    remain_fractiles = num_fractiles
    vcounts = ser.value_counts()
    high_freq = []
    i = 0
    while vcounts.iloc[i] > num_valid/ float(remain_fractiles):
        curr_val = vcounts.index[i]
        high_freq.append(curr_val)
        remain_fractiles -= 1
        num_valid = num_valid - vcounts[i]
        i += 1
    curr_ser = ser.copy()
    curr_ser = curr_ser[~curr_ser.isin(high_freq)]
    qcut = pd.qcut(curr_ser, remain_fractiles, retbins=True)
    qcut_bins = qcut[1]
    all_bins = list(qcut_bins)
    for val in high_freq:
        bisect.insort(all_bins, val)
    cut = pd.cut(ser, bins=all_bins)
    ser_fractiles = pd.Series(cut.labels + 1, index=ser.index)
    return ser_fractiles

最佳答案

问题是 pandas.qcut 选择 bin/quantiles 以使每个都有相同数量的记录，但是具有相同值的所有记录必须保留在相同的 bin/quantile 中(这行为符合分位数的统计定义)。

解决方案是:

1 - 使用具有 this fix 的 pandas >= 0.20.0 .他们添加了一个选项 duplicates='raise'|'drop' 来控制是在重复的边缘上提升还是丢弃它们，这将导致 bin 比指定的少，而有些更大(包含更多元素)比其他人。

2 - 减少 分位数的数量。更少的分位数意味着每个分位数更多的元素

3 - 使用 DataFrame.rank(method='first') 对您的数据进行排名。排名为数据框中的每个元素(排名)分配一个唯一的值，同时保持元素的顺序(相同的值除外，它们将按照它们在数组中出现的顺序进行排名，参见 method='first')

例子:

pd.qcut(df, nbins) <-- this generates "ValueError: Bin edges must be unique"

然后改用这个:

pd.qcut(df.rank(method='first'), nbins)

4 - 指定一个自定义分位数范围，例如[0, .50, .75, 1.] 获得每个分位数不相等的项目数

5 - 使用 pandas.cut，根据值本身选择要均匀分布的 bin，而 pandas.qcut 选择 bin，以便每个 bin 中的记录数相同

关于python - 如何使用非唯一的 bin 边缘进行 qcut？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20158597/

30

4

0

文章推荐： python - 惯用的 Python : 'times' loop

文章推荐： python - NumPy/SciPy 中的多线程整数矩阵乘法

文章推荐： python - 在 Python 中设置时区

git - .gitignore 语法 : bin vs bin/vs. bin/* 与 bin/**
bin、bin/、bin/*和bin/**有什么区别我的 .gitignore 文件？我一直在使用 bin/，但正在查看 other .gitignore files (在 eclipse file
optimization - Bin Packing : Set amount on bins, 想要最小化最大 bin 重量
给定 n 个无限容量的箱子，我想将 m 件元素装入其中(每个元素都有特定的重量)，同时最小化最重箱子的重量。这不是传统的垃圾箱包装/背包问题，其中垃圾箱的容量有限，而您试图尽量减少使用的垃圾箱数量；
ssh - bin/sh，bin/bash，sbin/nologin，bin/tcsh等有什么区别？
Closed. This question is off-topic。它当前不接受答案。想改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。 7年前关
java - bin packing 的具体变化(n bins 优化以最大化 bins 的最小值)
我一直在寻找一个问题的解决方案，这个问题显然比我最初想象的更不寻常。 Optaplanner 看起来很有前途，但由于我对 Java 相对缺乏经验，所以我想在深入研究之前调查一下这是否完全不可能。我正
python - 在所有数据框列上应用具有不同 bin 大小的 binning
我有一个琐碎的问题。我有一个非常大的 df 有很多列。我正在尝试找到最有效的方法来对具有不同 bin 大小的所有列进行 bin 并创建一个新的 df。这是一个仅对单个列进行分箱的示例: import
sql - 在每个 bin 中创建具有唯一值的 bin
我想以这样的方式对数字列 (var) 进行分类，使每个分类中的行数大致相同。我的附加要求是该列中的一个(唯一)值不能分配给多个 bin。例如，如果 var 列中的值 1 分配给 bin 1，则不允许将
linux -/bin/sh :/bin: Is a directory
我在 centos (rhel 7)_ 上使用 make 命令和 gcc 7.1 通过代码进行编译，但遇到了以下错误: /bin/sh:/bin: 是一个目录 which sh 返回/usr/bin/
c++ -/usr/bin/ld : cannot find -ldlib/usr/bin/ld: cannot find -lcblas/usr/bin/ld: cannot find -llapack
/usr/bin/ld: cannot find -ldlib /usr/bin/ld: cannot find -lcblas /usr/bin/ld: cannot find -llapack 在
r - 如何将 span bin 信息转换为单独的 bins？
我进行了一项眼动追踪实验，试图检测两个区域(感兴趣区域，名为“代理”和“患者”的 AOI)的注视分布。我将整个时间划分为时间段，例如得到以下列表: Stimulus Participant A
linux - ~/.local/bin 中的文件优先于/usr/bin
我正在尝试替换 whoami带有 ~/.local/bin/ 中的脚本的命令.有没有办法让我的 whoami 获得优先权，这样当我运行 whoami 时，我的脚本就会运行？最佳答案这就是我的 ~/
import - 如何在另一个 bin 中重用主 bin 中的代码？
我的项目结构是这样的: . ├── Cargo.lock ├── Cargo.toml └── src ├── bin │ └── other.rs ├── main.rs
Java - 从 BIN 文件读取数组或将数组写入 BIN 文件
我正在开发一个小型图书馆应用程序，它以这种格式存储技术手册: 目前，我正在尝试将库的内容保存并根据用户的需要加载到 bin 文件中。但是，当我尝试加载库文件时，唯一的变化是“-1”被打印到控制台。此
GitIgnore - 忽略 bin/但包括 bin/*.refresh
我试图忽略 Web 项目的 bin 文件夹，但包含该 bin 文件夹中的 .refresh 文件。这是我的 .gitignore 中的内容: [Bb]in/ #Allow .refresh file
verilog - Functional Coverage - 收集所有未在其他 bin 中收集的值的 bin
ipv6_hdr__f_next_header_cp: coverpoint this.ipv6_hdr.ipv6_f_next_header iff (this.has_ipv6_header){
bash - #!/bin/sh 和 #:/bin/sh 之间的区别
今天有人给我发了一个以 #: 开头的脚本，谷歌搜索后我没有找到任何答案。即使脚本有效，我想知道那是什么意思。最佳答案哇!这让我想起了很多记忆! 回到 1980 年代和 90 年代初期，有两种基本
linux - 将#!/bin/ksh 日期转换函数翻译成#!/bin/sh
我使用这个 ksh 函数将“1-Jan-2011”格式转换为“1.1.2011”。 #!/bin/ksh ##---- function to convert 3 char month into nu
c# - Bin/Debug 和 Bin/Release 的区别
我在 c# winform 项目中使用 sql-server compact 数据库。如果我查看构成解决方案的文件，我可以在以下两个文件夹中看到 exe 和 sdf 文件的副本: /bin/Debu
python - Seaborn 直方图 bin 宽度未扩展到 bin 标签
这个问题与我上一个问题不同。我正在通过以下代码使用 facetgrid 打印直方图。 import numpy as np import pandas as pd import seaborn as
python - 给定一系列 bin 概率，如何生成 bin 计数的随机样本？
我有一个整数需要根据概率分布分成 bin。例如，如果我有 N=100 对象进入 [0.02, 0.08, 0.16, 0.29, 0.45] 那么你可能会得到 [1, 10, 20 , 25, 44]
linux - #!/bin/bash --login vs #!/bin/bash
我在寻找使用 Jenkins 运行 Appium 的脚本时阅读了以下脚本 #!/bin/bash --login killall -9 "iPhone Simulator" &> /dev/null

首页

博学

6Ren·AI

商城

python - 如何使用非唯一的 bin 边缘进行 qcut？