gpt4 book ai didi

python - scikit-learn 转换器根据用户提供的切点对数据进行分类

转载 作者:行者123 更新时间:2023-11-28 18:56:33 25 4
gpt4 key购买 nike

我正在尝试在 scikit-learn 管道中包含一个转换器,该转换器将根据我自己提供的切点将连续数据列合并为 4 个值。 KBinsDiscretizer 的当前参数不起作用主要是因为 strategy 参数只接受 {‘uniform’, ‘quantile’, ‘kmeans’}

pandas 中已经有 cut() 函数,所以我想我需要创建一个自定义转换器来包装 cut() 功能行为。

期望的行为(不是实际的)

X = [[-2, -1, -0.5, 0, 0.5, 1, 2]]
est = Discretizer(bins=[-float("inf"), -1.0, 0.0, 1.0, float("inf")],
encode='ordinal')
est.fit(X)
est.transform(X)
# >>> array([[0., 0., 1., 1., 2., 2., 3.]])

上面的结果假设 bins 包括最右边的边缘和最低的边缘。像这样的 pd.cut() 命令会提供:

import pandas as pd
import numpy as np
pd.cut(np.array([-2, -1, -0.5, 0, 0.5, 1, 2]),
[-float("inf"), -1.0, 0.0, 1.0, float("inf")],
labels=False, right=True, include_lowest=True)
# >>> array([0, 0, 1, 1, 2, 2, 3])

最佳答案

作为自定义转换器,这似乎对我有用。 scikit-learn 需要数字数组,因此我不确定您是否可以实现返回标签的 pd.cut() 功能。出于这个原因,我在下面的实现中将其硬编码为 False

import pandas as pd
from sklearn.base import BaseEstimator, TransformerMixin

class CutTransformer(BaseEstimator, TransformerMixin):
def __init__(self, bins, right=True, retbins=False,
precision=3, include_lowest=False,
duplicates='raise'):
self.bins = bins
self.right = right
self.labels = False
self.retbins = retbins
self.precision = precision
self.include_lowest = include_lowest
self.duplicates = duplicates

def fit(self, X, y=None):
return self

def transform(self, X, y=None):
assert isinstance(X, pd.DataFrame)
for jj in range(X.shape[1]):
X.iloc[:, jj] = pd.cut(x=X.iloc[:, jj].values, **self.__dict__)
return X

一个例子

df = pd.DataFrame(data={'rand': np.random.rand(5)})
df
rand
0 0.030653
1 0.542533
2 0.159646
3 0.963112
4 0.539530

ct = CutTransformer(bins=np.linspace(0, 1, 5))
ct.transform(df)
rand
0 0
1 2
2 0
3 3
4 2

关于python - scikit-learn 转换器根据用户提供的切点对数据进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57715314/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com