python - ValueError : setting an array element with a sequence. 决策树

转载作者：太空宇宙更新时间：2023-11-03 14:14:17

28

4

我认为问题出在我的变量“info.venue”上。它实际上是字符串值，我使用 labelencoder 和 hotoneencoder 对其进行了编码。但当我尝试实现决策树时，它给了我错误。当我尝试只使用两个变量时，它就像一个魅力。但是当我使用一个 Hot 编码器使用“info.venue”时，它给了我以下错误。

错误是“值错误:使用序列设置数组元素”

info.toss.decision info.toss.winner  info.venue
        field            Australia  Shere Bangla National Stadium
        field            Australia  Adelaide Oval
        field            Australia  Melbourne Cricket Ground
        bat              Australia  Brabourne Stadium
        bat              Australia  Melbourne Cricket Ground
        bat              Australia  Sydney Cricket Ground
        bat              Australia  Punjab Cricket Association 
        field            India      Kensington Oval, Bridgetown
        field            India      Stadium Australia
       field             India      Saurashtra Cricket Association Stadium
        bat              India      Kingsmead
        bat              India      Melbourne Cricket Ground
        bat              India      R Premadasa Stadium

代码如下:

使用LabelEncoder和OneHotEncoder对数据进行编码

> from sklearn.preprocessing import LabelEncoder,OneHotEncoder
> labelencoder=LabelEncoder() onehotencoder=OneHotEncoder()
> df['info.toss.decision'] =
> labelencoder.fit_transform(df['info.toss.decision'])
> df['info.toss.winner']=
> labelencoder.fit_transform(df['info.toss.winner'])
> df['info.outcome.winner']=
> labelencoder.fit_transform(df['info.outcome.winner'])
> df['info.venue']=labelencoder.fit_transform(df['info.venue'])
> df['info.venue']=onehotencoder.fit_transform(df[['info.venue']])

从数据框中选择特定列

X = df[['info.venue','info.toss.decision','info.toss.winner']]
Y = df[['info.outcome.winner']]

将数据集拆分为训练集和测试集

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.25)

将决策树分类拟合到训练集

from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier(criterion = 'gini', random_state = 0)
classifier.fit(X_train, y_train)

“info.venue”列如下；

info.venue

Kingsmead
Melbourne Cricket Ground
Brabourne Stadium
Kensington Oval, Bridgetown
Stadium Australia
Melbourne Cricket Ground
R Premadasa Stadium
Saurashtra Cricket Association Stadium
Shere Bangla National Stadium
Adelaide Oval
Melbourne Cricket Ground
Sydney Cricket Ground
Punjab Cricket Association IS Bindra Stadium, Mohali

最佳答案

此错误是因为您尝试将二维数组分配给 pandas 中的单个列。

OneHotEncoder 默认返回一个稀疏矩阵，它被 pandas 识别为一个对象数组。因此，pandas 会接受这一点并将完整的 2D 对象广播到数据帧的所有行。然后在决策树的拟合过程中会抛出错误。

所以你需要改变它:

ohe_data = onehotencoder.fit_transform(df[['info.venue']]).toarray()
for i in np.arange(onehotencoder.n_values_):
    df['infovenue_one_coded_'+str(i)]=ohe_data[:,i]

然后从数据框中删除原始列:

new_df = df.drop('info.venue', 1)

然后将这个new_df传递给决策树。

更新:

由于您首先要转换为一个热编码数据，然后将其拆分为训练和测试，因此我建议使用 pd.get_dummies()，它将替换代码中的 LabelEncoder 和 OneHotEncoder。

替换这些行:

df['info.venue']=labelencoder.fit_transform(df['info.venue'])
df['info.venue']=onehotencoder.fit_transform(df[['info.venue']])

与

new_df = pd.concat([df, pd.get_dummies(df['info.venue'])], axis=1)
new_df = df.drop('info.venue', axis=1, inplace=True)

关于python - ValueError : setting an array element with a sequence. 决策树，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48305143/

28

4

0

文章推荐： c# - 从 C# 到 MySql 格式的日期转换

文章推荐： apache - 在我的网站上使用 https 时出现警告

文章推荐： python - 列变化计数器

文章推荐： python - 属性错误 : 'Recognizer' object has no attribute 'recognize'

testing - 决策/条件覆盖
是否有显示测试用例数量以提供决策/条件覆盖率的工具？例如: if(x>0) if(x0) 3 个案例足以覆盖决策/条件。 if(x>0) if(x0) 4 个案例足以覆盖决策/条件。这是真的吗？
c++ - 决策、复杂条件和规划易于维护
我正在尝试找到一种优雅的方式来实现易于维护的决策算法，因为决策的条件可能经常变化。我将尝试更具体地举一个例子: 假设我正在尝试管理一家餐厅厨房的 cooking 厨师团队。每个厨师都知道如何 co
android - 决策 : ListView or ScrollView
我需要一个 Android Activity ，它应该显示一个字段，如带有图像的标题和其下方的几个动态生成的项目(我认为是 1 到 100)。如果我不想让 headsection 滚动，我会使用 Li
algorithm - 最大值(value)决策
我正在编写函数以从值列表中提供最大值(value)。我的问题是如果所有值都相同怎么办？例如， 30,29,34,45 简单。最大值为 45。现在， 20,20,20,20 这里的最大值是20吗？或者没
json - Postgres 决策、JSON 或额外的列？
我需要知道哪个检索事件日志的速度更快，但我在比较中找不到:假设需要查找的所有列都有btree索引，需要查找的json对象中的所有键都有GIN索引。 case 1: ActivityID (in
ios - Swift 自定义单元格布局 TableView 决策
我需要在我的 iPhone 应用程序中显示一个表格: neither the number of cells nor the contents are known at compile time, b
mysql - 数据库中的数据太多 - 需要做出 "replication"决策
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
c++ - 物理引擎的继承/接口(interface)决策
这是针对在 MinGW/Windows 上使用 SDL 的小型游戏项目。我正在研究一个物理引擎，我的想法是拥有一个Physics::Object，所有物理对象都应该派生自它，并且它会在全局 Phys
c# - LINQ 查询中的 If Else 决策
我有一个小的 LINQ 查询来填充下拉控件(WinForms Telerik 应用程序)，其中的数据行显示两个值(ITNBR 和描述): var query = from i in db.ItemMa
java - 由于递归规则调用，ANTLR3 错误规则具有非 LL(*) 决策
我正在尝试使用 antlr 3 为我的语法生成词法分析器和解析器。有人可以解释这个错误是什么意思吗？ error(211): T.g:14:6: [fatal] rule stmt has non-L
r - 更改 R 方图中的标签位置(决策/回归树)
partykit包很好地表示了决策树。我遇到的唯一问题是标签很长然后它们重叠。是否可以移动这些标签以防止它(见下图中的蓝色箭头)？ library("rpart") library("partykit
c# - _Layout.cshtml 上的 MVC 决策
所以我环顾四周，似乎找不到合适的解决方案来解决我的问题。问题在我的布局中，我希望能够根据数据库中的内容选择在运行时是否存在导航项: 当前布局(导航栏) @Html.Acti
python - 在 jupyter notebook 中显示 scikit 决策 TreeMap
我目前正在创建一个机器学习 jupyter 笔记本作为一个小项目，并希望显示我的决策树。但是，我能找到的所有选项都是导出图形然后加载图片，这相当复杂。所以想问问有没有办法不用导出加载图形，直接显示我
ANTLR:由于可从 alts 1,2 访问递归规则调用，因此规则 token 具有非 LL(*) 决策
grammar AdifyMapReducePredicate; PREDICATE : PREDICATE_BRANCH | EXPRESSION ; PREDICA

首页

博学

6Ren·AI

商城

python - ValueError : setting an array element with a sequence. 决策树

使用LabelEncoder和OneHotEncoder对数据进行编码

从数据框中选择特定列

将数据集拆分为训练集和测试集

将决策树分类拟合到训练集