gpt4 book ai didi

python - 具有不同特征的数据预处理步骤

转载 作者:行者123 更新时间:2023-12-04 08:12:54 25 4
gpt4 key购买 nike

我想在分类器中包含多个特征以更好地提高模型性能。
我有一个类似于这个的数据集


文本
is_it_capital?
is_it_upper?
包含_数量?
标签


文本示例
0
0
0
0

另一个文本示例
1
1
0
1

发生什么事了?5点再说
1
0
1
1


我正在将不同的预处理算法应用于文本(BoW、TF-IDF 等)。通过选择 X= df['Text'] 在我的分类器中只使用 Text 列是“容易的”并应用预处理算法。但是,我现在还想包括 is_it_capital?和其他变量(标签除外)作为特征,因为我发现它们可能对我的分类器有用。
我尝试的是以下内容:

X=df[['Text','is_it_capital?', 'is_it_upper?', 'contains_num?']]
y=df['Label']

from sklearn.base import TransformerMixin
class DenseTransformer(TransformerMixin):
def fit(self, X, y=None, **fit_params):
return self
def transform(self, X, y=None, **fit_params):
return X.todense()

from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('vectorizer', CountVectorizer()),
('to_dense', DenseTransformer()),
])

transformer = ColumnTransformer([('text', pipeline, 'Text')], remainder='passthrough')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=40)

X_train = transformer.fit_transform(X_train)
X_test = transformer.transform(X_test)

df_train = pd.concat([X_train, y_train], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)

#Logistic regression
logR_pipeline = Pipeline([
('LogRCV',countV),
('LogR_clf',LogisticRegression())
])

logR_pipeline.fit(df_train['Text'], df_train['Label'])
predicted_LogR = logR_pipeline.predict(df_test['Text'])
np.mean(predicted_LogR == df_test['Label'])
但是我得到了错误:

TypeError: cannot concatenate object of type '<class'scipy.sparse.csr.csr_matrix'>'; only Series and DataFrame objs arevalid


有没有人处理过类似的问题?我怎么能修好呢?
我的目标是在我的分类器中包含所有功能。
更新:
我也试过这个:
from sklearn.base import BaseEstimator,TransformerMixin

class custom_count_v(BaseEstimator,TransformerMixin):
def __init__(self,tfidf):
self.tfidf = tfidf

def fit(self, X, y=None):
joined_X = X.apply(lambda x: ' '.join(x), axis=1)
self.tfidf.fit(joined_X)
return self

def transform(self, X):
joined_X = X.apply(lambda x: ' '.join(x), axis=1)

return self.tfidf.transform(joined_X)


count_v = CountVectorizer()

clmn = ColumnTransformer([("count", custom_count_v(count_v), ['Text'])],remainder="passthrough")
clmn.fit_transform(df)
它不会返回任何错误,但不清楚我是否正确地包含了所有功能,以及我是否需要在训练/测试拆分之前或之后执行此操作。如果您能在应用程序之前向我展示,那将非常有帮助分类器的:
#Logistic regression
logR_pipeline = Pipeline([
('LogRCV',....),
('LogR_clf',LogisticRegression())
])

logR_pipeline.fit(....)
predicted_LogR = logR_pipeline.predict(...)
np.mean(predicted_LogR == ...)
哪里应该有数据框或列而不是点(我猜这取决于转换和连接),以便更好地执行我所做的步骤和错误。

最佳答案

您的错误似乎试图连接数组和系列。
我对管道和列转换器不熟悉,所以我可能会误会;似乎它没有从 CountVectorizer 中捕获特征名称,因此拥有未标记的数据框没有任何好处:也许您可以坚持使用 numpy 数组。
如果我弄错了,无论如何从 np.array 跳转到数据框应该很容易......
所以,你可以这样做:

df_train = np.append(
X_train, #this is an array
np.array(y_train).reshape(len(y_train),1), #convert the Serie to numpy array of correct shape
axis=1)
print(df_train)

[[1 0 1 0 0 1 0 1 0 1 1 0 1]
[0 1 0 1 1 0 1 0 1 1 0 1 1]]
希望这会有所帮助(尽管正如我所说,我不熟悉这些 sklearn 库...)
编辑
更完整的东西,没有那些管道(我不确定是否需要);由于输入数据集,它在我的计算机上失败了,但是您的完整数据集可能会取得更大的成功。
df = pd.DataFrame(
[["an example of text", 0, 0, 0, 0],
["ANOTHER example of text", 1, 1, 0, 1],
["What's happening?Let's talk at 5", 1, 0, 1, 1]
],
columns=["Text", "is_it_capital?", "is_it_upper?", "contains_num?", "Label"]
)

X=df[['Text','is_it_capital?', 'is_it_upper?', 'contains_num?']]
y=df['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=40)

cv = CountVectorizer()

X_train = (
pd.DataFrame(
cv.fit_transform(X_train['Text']).toarray(),
columns=cv.get_feature_names(),
index=X_train.index
) #This way you keep the labels/indexes in a dataframe format
.join(X_train.drop('Text', axis=1)) #add your previous 'get_dummies' columns
)

X_test = (
pd.DataFrame(
cv.transform(X_test['Text']).toarray(),
columns=cv.get_feature_names(),
index=X_test.index
)
.join(X_test.drop('Text', axis=1))
)

#Then compute your regression directly :
lr = LogisticRegression()
lr = lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

关于python - 具有不同特征的数据预处理步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65864813/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com