python - 给定数据分布离散化 Pandas 的列-6ren

python - 给定数据分布离散化 Pandas 的列

转载作者：太空宇宙更新时间：2023-11-04 02:48:53

27

4

我有一个 pandas 的数据框，其中一列包含从 0 到 50 的真实数据。它们分布不均。

我可以使用以下方式获取分发:

hist, bins = np.histogram(df["col"])

我想做的是将每个值替换为其所属的 bin 编号。

为此，这是可行的:

for i in range(len(df["speed_array"])):
    df["speed_array"].iloc[i] = np.searchsorted(bins, df["speed_array"].iloc[i])

但是，对于包含 4 百万行以上的数据帧，它非常慢(50 分钟)。我正在寻找一种更有效的方法。你们有更好的主意吗？

最佳答案

只需使用 np.searchsorted在整个底层数组数据上-

df["speed_array"] = np.searchsorted(bins, df["speed_array"].values)

运行时测试-

In [140]: # 4 million rows with 100 bins
     ...: df = pd.DataFrame(np.random.randint(0,1000,(4000000,1)))
     ...: df.columns = [['speed_array']]
     ...: bins = np.sort(np.random.choice(1000, size=100, replace=0))
     ...: 

In [141]: def searchsorted_app(df):
     ...:     df["speed_array"] = np.searchsorted(bins, df["speed_array"].values)
     ...:     

In [142]: %timeit searchsorted_app(df)
10 loops, best of 3: 15.3 ms per loop

关于python - 给定数据分布离散化 Pandas 的列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44435458/

27

4

0

文章推荐： python - 循环和 Collatz 猜想

文章推荐： javascript - 选项卡内容不会在选项卡单击时显示

文章推荐： javascript - 如何使用固定的 Navbar 滚动到正确的 div

文章推荐： python - 在 Python 中绘制实时数据

dart - 如何使 slider 离散？
如何在 Flutter 中使 slider 离散看起来像上图？ slider discrete 最佳答案使用 divisions Slider 的属性(property)小部件将其分成相等的部分，然
python - 离散 pyplot 散点颜色条
我正在创建一个带有颜色条的散点图 plt.scatter(X, Y, c=Z) plt.colorbar() plt.show() plt.close() 其中 X 和 Y 是 float 组，Z 是
Android seekbar 离散，如何删除步骤指示器
我刚刚在 android studio 中发现了 seekbar 离散小部件，我发现它非常有用，但我不知道如何删除步骤指示器，或者用更合适的可绘制对象更改它们。有人设法做到了吗？这是我当前搜索栏的
c - 是否可以在没有 for 循环的情况下执行“离散”几何和？
问题请注意以下问题:巫师可以创建和销毁 rune 。创建一个新的 rune 需要消耗与先前创建的 rune 数量成比例的法力。摧毁 rune 会恢复创建 rune 所用的法力。下面，我提出一个可能的
r - 多重 geom_sf 色彩美学(离散+连续)
我正在尝试使用 ggplot2 中的 sf 和 geom_sf 制作 map ，其中一组点数据使用连续颜色比例(-1 到 1)，一组线数据使用离散比例(a、b、c、d)着色。但是，当我在同一张 map
machine-learning - 针对连续状态、离散 Action 的强化学习算法
我正在尝试在具有连续状态(dim.= 20)和离散操作(3 个可能的操作)的环境中找到最佳策略。并且有一个特定的时刻:对于最佳策略，一个操作(称为“操作 0”)的选择频率应比其他两个操作高得多(频率约
algorithm - "Drawing"离散 x-y 步长的弧
仅使用 x-y 位置移动绘制圆弧的最佳方法是什么？例如，假设我想在点 (4,4) 处绘制一个半径为 4 的圆。让我们看看我的“抽屉”从 (4,0) 开始，每个方向的分辨率为 0.1 步。我将如何创建一
r - 使用离散化(离散=T)时无法在 mgcv 中生成预测
我正在使用一个使用广义加法模型的随机站点级效应来拟合一个模型，该模型在 mgcv 中实现。 R 包。我一直在使用函数 gam() 执行此操作但是，为了加快速度，我需要转到 bam()框架，与gam()
r - 将段添加到 ggplot2 中的条形图(离散 x 轴)
这个问题在这里已经有了答案: Make a line separated by group in bar chart (3 个答案) 关闭上个月。我正在尝试使用 ggplot2 在条形图的每个条上
r - 将段添加到 ggplot2 中的条形图(离散 x 轴)
这个问题在这里已经有了答案: Make a line separated by group in bar chart (3 个答案) 关闭上个月。我正在尝试使用 ggplot2 在条形图的每个条上
cuda - 在 opencl 中 CPU 作为主机，intel HD 4000 作为设备 1，离散 GPU 作为设备 2
是否可以同时使用 Intel HD 4000 集成显卡和独立 GPU，OpenCL(或 CUDA)作为设备，CPU 作为主机？我想要一些代码在集成显卡上运行，而其他代码同时在我的 GPU 上运行。最

首页

博学

6Ren·AI

商城

python - 给定数据分布离散化 Pandas 的列