- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想在分类器中包含多个特征以更好地提高模型性能。
我有一个类似于这个的数据集
文本
is_it_capital?
is_it_upper?
包含_数量?
标签
文本示例
0
0
0
0
另一个文本示例
1
1
0
1
发生什么事了?5点再说
1
0
1
1
我正在将不同的预处理算法应用于文本(BoW、TF-IDF 等)。通过选择 X= df['Text']
在我的分类器中只使用 Text 列是“容易的”并应用预处理算法。但是,我现在还想包括 is_it_capital?
和其他变量(标签除外)作为特征,因为我发现它们可能对我的分类器有用。
我尝试的是以下内容:
X=df[['Text','is_it_capital?', 'is_it_upper?', 'contains_num?']]
y=df['Label']
from sklearn.base import TransformerMixin
class DenseTransformer(TransformerMixin):
def fit(self, X, y=None, **fit_params):
return self
def transform(self, X, y=None, **fit_params):
return X.todense()
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('vectorizer', CountVectorizer()),
('to_dense', DenseTransformer()),
])
transformer = ColumnTransformer([('text', pipeline, 'Text')], remainder='passthrough')
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=40)
X_train = transformer.fit_transform(X_train)
X_test = transformer.transform(X_test)
df_train = pd.concat([X_train, y_train], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)
#Logistic regression
logR_pipeline = Pipeline([
('LogRCV',countV),
('LogR_clf',LogisticRegression())
])
logR_pipeline.fit(df_train['Text'], df_train['Label'])
predicted_LogR = logR_pipeline.predict(df_test['Text'])
np.mean(predicted_LogR == df_test['Label'])
但是我得到了错误:
TypeError: cannot concatenate object of type '<class'scipy.sparse.csr.csr_matrix'>'; only Series and DataFrame objs arevalid
from sklearn.base import BaseEstimator,TransformerMixin
class custom_count_v(BaseEstimator,TransformerMixin):
def __init__(self,tfidf):
self.tfidf = tfidf
def fit(self, X, y=None):
joined_X = X.apply(lambda x: ' '.join(x), axis=1)
self.tfidf.fit(joined_X)
return self
def transform(self, X):
joined_X = X.apply(lambda x: ' '.join(x), axis=1)
return self.tfidf.transform(joined_X)
count_v = CountVectorizer()
clmn = ColumnTransformer([("count", custom_count_v(count_v), ['Text'])],remainder="passthrough")
clmn.fit_transform(df)
它不会返回任何错误,但不清楚我是否正确地包含了所有功能,以及我是否需要在训练/测试拆分之前或之后执行此操作。如果您能在应用程序之前向我展示,那将非常有帮助分类器的:
#Logistic regression
logR_pipeline = Pipeline([
('LogRCV',....),
('LogR_clf',LogisticRegression())
])
logR_pipeline.fit(....)
predicted_LogR = logR_pipeline.predict(...)
np.mean(predicted_LogR == ...)
哪里应该有数据框或列而不是点(我猜这取决于转换和连接),以便更好地执行我所做的步骤和错误。
最佳答案
您的错误似乎试图连接数组和系列。
我对管道和列转换器不熟悉,所以我可能会误会;似乎它没有从 CountVectorizer 中捕获特征名称,因此拥有未标记的数据框没有任何好处:也许您可以坚持使用 numpy 数组。
如果我弄错了,无论如何从 np.array 跳转到数据框应该很容易......
所以,你可以这样做:
df_train = np.append(
X_train, #this is an array
np.array(y_train).reshape(len(y_train),1), #convert the Serie to numpy array of correct shape
axis=1)
print(df_train)
[[1 0 1 0 0 1 0 1 0 1 1 0 1]
[0 1 0 1 1 0 1 0 1 1 0 1 1]]
希望这会有所帮助(尽管正如我所说,我不熟悉这些 sklearn 库...)
df = pd.DataFrame(
[["an example of text", 0, 0, 0, 0],
["ANOTHER example of text", 1, 1, 0, 1],
["What's happening?Let's talk at 5", 1, 0, 1, 1]
],
columns=["Text", "is_it_capital?", "is_it_upper?", "contains_num?", "Label"]
)
X=df[['Text','is_it_capital?', 'is_it_upper?', 'contains_num?']]
y=df['Label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=40)
cv = CountVectorizer()
X_train = (
pd.DataFrame(
cv.fit_transform(X_train['Text']).toarray(),
columns=cv.get_feature_names(),
index=X_train.index
) #This way you keep the labels/indexes in a dataframe format
.join(X_train.drop('Text', axis=1)) #add your previous 'get_dummies' columns
)
X_test = (
pd.DataFrame(
cv.transform(X_test['Text']).toarray(),
columns=cv.get_feature_names(),
index=X_test.index
)
.join(X_test.drop('Text', axis=1))
)
#Then compute your regression directly :
lr = LogisticRegression()
lr = lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)
关于python - 具有不同特征的数据预处理步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65864813/
我是在项目中使用 keras 的新手。我一直在我的模型中使用generator。 我真的很困惑我应该输入什么值 1) In fit_generator : steps_per_epoch & vali
假设我们有如下情况: A has to give $10 to B. B has to give $20 to C. C has to give $10 to D. 现在这种情况可以简化为: A lo
我正在尝试对特定列(在工作表“OA”中)进行相对引用,我需要在 110 的步骤中检索新工作表中的单元格内容 例如, =OA!$AB217 =OA!$AB327 =OA!$AB437 与其在每个单元格中
我的 PowerShell 控制台启动时间很慢(总是等待超过 5 秒),并且希望获得有关故障排除步骤的建议,以找出瓶颈可能在哪里? 我已经阅读了关于运行脚本的内容,-NoProfile防止模块等加载很
我在 NativeScript 应用程序中使用 slider 小部件,我想知道是否有步骤属性。在我的例子中,小部件代表金钱,我希望以 5 美元的增量滑动。 我查看了文档,但找不到任何对这种情况有帮助的
我在 NativeScript 应用程序中使用 slider 小部件,我想知道是否有步骤属性。在我的例子中,小部件代表金钱,我希望以 5 美元的增量滑动。 我查看了文档,但找不到任何对这种情况有帮助的
这是我的code : &n
为什么 (2) c.ERR(模棱两可)?第一个方法参数 - char ('a') 被扩展为 float => 匹配。 如果找到匹配项,是否无需继续执行第 2 步(装箱/拆箱)或第 3 步(尝试可变参数
我有一个函数,它处理一个包含 6100 个列表项的列表。当列表只有 300 个项目时,该代码可以正常工作。但是立即与 6100 崩溃。有没有一种方法可以遍历这 6100 个项目,一次说 30 个,然后
1.制作PHP安装程序的原理 其实PHP程序的安装原理无非就是将数据库结构和内容导入到相应的数据库中,从这个过程中重新配置连接数据库的参数和文件,为了保证不被别人恶意使用安装文件,当安装
我创建了一个类似于 primeNG page 的步骤组件我想把他放在一个 dynamic dialog 里面但在应用它之后,“第 1 步”和“第 2 步”不会呈现。 查看代码,我发现关键部分是我们打开
我在理解描述的 MixColumns 步骤时遇到问题 here . 我知道扩散,这一切都是有道理的,因为它指出每列都被视为多项式并乘以 GF(2^8) 的模。 但是..乘以GF(2 ^ 8)。尽管域仍
根据我对 TeamCity 工作原理的观察,我注意到在所有步骤执行完毕后评估构建失败条件。这很烦人,因为如果满足任何构建失败条件,我不能有一个不会执行的步骤。 我不是指常见的构建失败条件,例如“至少一
基于这篇试图在我的环境中测试管道代码的帖子。但它给出了以下错误消息。如何修复他的管道代码? ERROR: Unable to find project for artifact copy: test
我参与了一个项目,需要向我的一位同事提供生产数据的子集(日期范围),以进行故障排除。我想将经过清理的生产数据子集插入新的数据库表中我的同事可以访问。请提出实现此目标的最佳方法。 最佳答案 最简单的方法
我有这样的场景: 鉴于我去这个页面 当我输入 cucumber 时 然后我点击 然后我应该看到文字 我不应该看到这条线 如果我运行这个场景,它将执行所有 5 个步骤。但是我想跳过第4步(然后我应该看到
是否有任何功能可以避免 m 文件的绘图输出? 我的意思是我在文件的开头放置了一个函数(如 clc),然后所有绘图函数都被阻止。 最佳答案 您可以使用自己的(嵌套在您的函数内或同一目录中)重载内置绘图函
我是小 cucumber 语言的新手,这在我看来是非常基本的问题,但我找不到答案。 我知道可以在 Gherking 中编写多行步骤参数,如下所示: Given a blog post named "R
即使其中一个步骤失败,有没有办法继续执行 Cucumber Steps。在我当前的设置中,当一个步骤失败时, cucumber 会跳过剩余的步骤......我想知道是否有某种方法可以设置 cucumb
start-step-stop 码是一种数据压缩技术,用于压缩相对较小的数字。 该代码的工作原理如下:它具有三个参数,start、step 和 stop。 Start 确定用于计算前几个数字的位数。
我是一名优秀的程序员,十分优秀!