- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
当依赖训练集和测试集之间的数据“手动”拆分并使用 scikit-learn 网格搜索功能时,我对获得看似截然不同的结果感到困惑。我在两次运行中都使用了来自 kaggle 竞赛的评估函数,并且网格搜索基于单个值(与手动拆分的值相同)。生成的 gini 值如此不同,一定是某处有错误,但我没有看到它,并且想知道我在比较中是否有疏忽?
为我运行的第一个代码块导致 gini 仅为“验证样本分数:0.0033997889(规范化 gini)。
”
第二个 block (使用 scikit)产生更高的值:
Fitting 2 folds for each of 1 candidates, totalling 2 fits
0.334467621189
0.339421569449
[Parallel(n_jobs=-1)]: Done 3 out of 2 | elapsed: 9.9min remaining: -198.0s
[Parallel(n_jobs=-1)]: Done 2 out of 2 | elapsed: 9.9min finished
{'n_estimators': 1000}
0.336944643888
[mean: 0.33694, std: 0.00248, params: {'n_estimators': 1000}]
求值函数:
def gini(solution, submission):
df = zip(solution, submission)
df = sorted(df, key=lambda x: (x[1],x[0]), reverse=True)
rand = [float(i+1)/float(len(df)) for i in range(len(df))]
totalPos = float(sum([x[0] for x in df]))
cumPosFound = [df[0][0]]
for i in range(1,len(df)):
cumPosFound.append(cumPosFound[len(cumPosFound)-1] + df[i][0])
Lorentz = [float(x)/totalPos for x in cumPosFound]
Gini = [Lorentz[i]-rand[i] for i in range(len(df))]
return sum(Gini)
def normalized_gini(solution, submission):
normalized_gini = gini(solution, submission)/gini(solution, solution)
print normalized_gini
return normalized_gini
gini_scorer = metrics.make_scorer(normalized_gini, greater_is_better = True)
block 1:
if __name__ == '__main__':
dat=pd.read_table('train.csv',sep=",")
y=dat[['Hazard']].values.ravel()
dat=dat.drop(['Hazard','Id'],axis=1)
#sample out 30% for validation
folds=train_test_split(range(len(y)),test_size=0.3) #30% test
train_X=dat.iloc[folds[0],:]
train_y=y[folds[0]]
test_X=dat.iloc[folds[1],:]
test_y=y[folds[1]]
#assume no leakage by OH whole data
dat_dict=train_X.T.to_dict().values()
vectorizer = DV( sparse = False )
vectorizer.fit( dat_dict )
train_X = vectorizer.transform( dat_dict )
del dat_dict
dat_dict=test_X.T.to_dict().values()
test_X = vectorizer.transform( dat_dict )
del dat_dict
rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1)
rf.fit(train_X,train_y)
y_submission=rf.predict(test_X)
print "Validation Sample Score: %.10f (normalized gini)." % normalized_gini(test_y,y_submission)
block 2:
dat_dict=dat.T.to_dict().values()
vectorizer = DV( sparse = False )
vectorizer.fit( dat_dict )
X = vectorizer.transform( dat_dict )
parameters= {'n_estimators': [1000]}
grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=2, verbose=1, scoring=gini_scorer,n_jobs=-1)
grid_search.fit(X,y)
print grid_search.best_params_
print grid_search.best_score_
print grid_search.grid_scores_
编辑
这是一个独立的例子,我得到了同样的差异。
from sklearn.cross_validation import StratifiedKFold, KFold, ShuffleSplit,train_test_split
from sklearn.ensemble import RandomForestRegressor , ExtraTreesRegressor, GradientBoostingRegressor
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer as DV
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.grid_search import GridSearchCV,RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from scipy.stats import randint, uniform
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston
if __name__ == '__main__':
b=load_boston()
X = pd.DataFrame(b.data)
y = b.target
#sample out 30% for validation
folds=train_test_split(range(len(y)),test_size=0.5) #50% test
train_X=X.iloc[folds[0],:]
train_y=y[folds[0]]
test_X=X.iloc[folds[1],:]
test_y=y[folds[1]]
rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1)
rf.fit(train_X,train_y)
y_submission=rf.predict(test_X)
print "Validation Sample Score: %.10f (mean squared)." % mean_squared_error(test_y,y_submission)
parameters= {'n_estimators': [1000]}
grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=2, verbose=1, scoring='mean_squared_error',n_jobs=-1)
grid_search.fit(X,y)
print grid_search.best_params_
print grid_search.best_score_
print grid_search.grid_scores_
最佳答案
不确定我能否为您提供完整的解决方案,但这里有一些建议:
在调试此类问题时使用 scikit-learn 对象的 random_state 参数,因为它使您的结果真实可重现。以下将始终返回完全相同的数字:
rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1, random_state=0)
rf.fit(train_X,train_y)
y_submission=rf.predict(test_X)
mean_squared_error(test_y,y_submission)
它重置随机数生成器以确保您始终获得“相同的随机性”。您也应该在 train_test_split
和 GridSearchCV
上使用它。
您在独立示例中获得的结果是正常的。通常我得到:
Validation Sample Score: 9.8136434847 (mean squared).
[mean: -22.38918, std: 11.56372, params: {'n_estimators': 1000}]
首先,请注意从 GridSearchCV
返回的均方误差是一个负均方误差。我认为这是为了保持分数函数的精神而设计的(对于分数,越大越好)。
现在这仍然是 9.81 对 22.38。然而这里的标准偏差是巨大的。它可以解释分数看起来如此不同。如果你想检查 GridSearchCV
没有做一些可疑的事情,你可以强制它只使用一个分割,和你的手动分割一样:
from sklearn.cross_validation import StratifiedKFold, KFold, ShuffleSplit,train_test_split, PredefinedSplit
from sklearn.ensemble import RandomForestRegressor , ExtraTreesRegressor, GradientBoostingRegressor
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer as DV
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.grid_search import GridSearchCV,RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from scipy.stats import randint, uniform
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston
if __name__ == '__main__':
b=load_boston()
X = pd.DataFrame(b.data)
y = b.target
folds=train_test_split(range(len(y)),test_size=0.5, random_state=15) #50% test
folds_split = np.ones_like(y)
folds_split[folds[0]] = -1
ps = PredefinedSplit(folds_split)
for tr, te in ps:
train_X=X.iloc[tr,:]
train_y=y[tr]
test_X=X.iloc[te,:]
test_y=y[te]
rf=RandomForestRegressor(n_estimators=1000, n_jobs=1, random_state=15)
rf.fit(train_X,train_y)
y_submission=rf.predict(test_X)
print("Validation Sample Score: {:.10f} (mean squared).".format(mean_squared_error(test_y, y_submission)))
parameters= {'n_estimators': [1000], 'n_jobs': [1], 'random_state': [15]}
grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=ps, verbose=2, scoring='mean_squared_error', n_jobs=1)
grid_search.fit(X,y)
print("best_params: ", grid_search.best_params_)
print("best_score", grid_search.best_score_)
print("grid_scores", grid_search.grid_scores_)
希望对您有所帮助。
抱歉,我无法弄清楚您的 Gini 计分器发生了什么。我会说 0.0033xxx 似乎是一个非常低的值(几乎没有模型?)对于标准化的基尼分数。
关于python - 手动拆分与 Scikit 网格搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31387736/
您能否建议如何在 Bootstrap 或 IE 兼容的 CSS 网格中,在没有 CSS 网格的情况下进行以下布局。 在大屏幕中 头部,左侧堆叠的 body 和右侧覆盖头部和 body 高度的图像。 [
我想在 Objective-C 中绘制一个 15*15 的网格。格子颜色是蓝色的,就像在诺基亚制作“贪吃蛇”游戏的棋盘一样。 我试过使用 for 循环来创建 subview ,但它似乎不起作用,我查看
我正在尝试将 CSS 网格与 grid-template-columns: repeat(auto-fill, auto) 一起使用,单元格被设置为最大宽度,导致每行一个元素。 p> 是否可以让元素宽
我正在努力在网格的自定义列上添加一个指向网站的简单、简单的链接。我用了 Inchoo blog为列添加自定义渲染器,它可以工作。我认为只需修改渲染并添加标签就足够了。但我的希望破灭了,行不通。 如何做
使用 Gnuplot 我绘制了下图 - 现在,正如您在图像中看到的那样,很难在线条之间识别出其末端的块。所以我想用不同的颜色或样式交替着色网格。 我现在用来给网格着色的代码是 - set style
假设我有一个非常简单的 WPF 网格(6 行 x 6 列),定义如下:
我有一个希望绑定(bind)到 WPF 网格的集合。 我面临的问题是列数是动态的并且取决于集合。这是一个简单的模型: public interface IRows { string Messa
我正在使用 Vaadin 8,我想制作某种混淆矩阵。我想知道是否可以根据单元格位置而不是数据提供者手动填充表格/网格的值。 referenceTable.addColumn(reference ->
我在 http://jsfiddle.net/TsRJy/ 上创建了一个带有 div 框的网格. 问题 我不知道如何使 a:hover 工作。 信息 重写 HTML 代码,因为表格不适合我。 http
银光处女在这里。如何使网格周围的用户控件自动调整大小以适应内部网格宽度?目前,当浏览器窗口更宽时,用户控件的显示尺寸约为 300 或 400 像素。它在数据网格周围呈现垂直和水平滚动条,这很丑陋。我想
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。 使用 CSS Grid,当您不知道会有多少个子项时,如何将所有子项保留在一
我想使用 CSS Grid 的 grid-template-areas。 但问题是我正在使用的 CMS 添加了大量额外的包装器。有没有办法忽略额外的包装?因为它弄乱了漂亮的网格区域...... 我正在
在我的Grid中,当我单击“操作”按钮(下面的代码中显示的“删除和编辑”按钮)时,我需要弹出一个窗口,而不用警告消息提醒用户; 在下面的代码中,我正在使用HANDLER handler: button
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。 使用 CSS Grid,当您不知道会有多少个子项时,如何将所有子项保留在一
我需要模拟一个仓库,其中有几辆自动驾驶车辆在给定的布局上移动,并具有简单的优先级规则。根据我的理解,这个问题可以通过离散事件模拟(DES)轻松解决,我会使用 SimPy为了这。 我看到的问题是,我似乎
在 ASP.NET 中,我可以让用户控件在页面上的表格中占据多个单元格: 用户控件1: foo bar 第1页: 并且自动调整列宽以适应最大的用户控件。 这也可以在 WPF
我正在寻找一种方法来实时搜索我的网格+要过滤的复选框。我有一个包含学生的网格(照片和姓名)。我想要的是有一个复选框,可以过滤学生所在的不同类(class)。还有一个搜索栏,我可以在其中输入学生姓名。
我正在使用 jQuery 和 jQuery UI 构建一个 Web 应用程序。我陷入了僵局。我需要的是一个 jQuery 网格,它具有可编辑字段,并以某种方式在这些可编辑单元格之一上合并一个自动完成字
我想知道是否有其他 JavaScript 组件可以提供具有多个分组的网格表示。下面是jqGrid的截图我扩展了允许该功能,但它需要获取所有数据。我希望在扩展分组时加载数据。 另一个修改后的 jqGri
我一直在为我将在此处描述的 CSS 问题而烦恼: 在下面的示例 ( https://codesandbox.io/s/jjq4km89y5 ) 中,您可以看到一个可滚动的内容(紫色背景)和一个被左侧面
我是一名优秀的程序员,十分优秀!