python - 手动拆分与 Scikit 网格搜索-6ren

python - 手动拆分与 Scikit 网格搜索

转载作者：太空狗更新时间：2023-10-29 21:23:56

当依赖训练集和测试集之间的数据“手动”拆分并使用 scikit-learn 网格搜索功能时，我对获得看似截然不同的结果感到困惑。我在两次运行中都使用了来自 kaggle 竞赛的评估函数，并且网格搜索基于单个值(与手动拆分的值相同)。生成的 gini 值如此不同，一定是某处有错误，但我没有看到它，并且想知道我在比较中是否有疏忽？

为我运行的第一个代码块导致 gini 仅为“验证样本分数:0.0033997889(规范化 gini)。”

第二个 block (使用 scikit)产生更高的值:

Fitting 2 folds for each of 1 candidates, totalling 2 fits
0.334467621189
0.339421569449
[Parallel(n_jobs=-1)]: Done   3 out of   2 | elapsed:  9.9min remaining:  -198.0s
[Parallel(n_jobs=-1)]: Done   2 out of   2 | elapsed:  9.9min finished
{'n_estimators': 1000}
0.336944643888
[mean: 0.33694, std: 0.00248, params: {'n_estimators': 1000}]

求值函数:

def gini(solution, submission):
    df = zip(solution, submission)
    df = sorted(df, key=lambda x: (x[1],x[0]), reverse=True)
    rand = [float(i+1)/float(len(df)) for i in range(len(df))]
    totalPos = float(sum([x[0] for x in df]))
    cumPosFound = [df[0][0]]
    for i in range(1,len(df)):
        cumPosFound.append(cumPosFound[len(cumPosFound)-1] + df[i][0])
    Lorentz = [float(x)/totalPos for x in cumPosFound]
    Gini = [Lorentz[i]-rand[i] for i in range(len(df))]
    return sum(Gini)

def normalized_gini(solution, submission):
    normalized_gini = gini(solution, submission)/gini(solution, solution)
    print normalized_gini
    return normalized_gini


gini_scorer = metrics.make_scorer(normalized_gini, greater_is_better = True)

block 1:

if __name__ == '__main__':

    dat=pd.read_table('train.csv',sep=",")

    y=dat[['Hazard']].values.ravel()
    dat=dat.drop(['Hazard','Id'],axis=1)

    #sample out 30% for validation
    folds=train_test_split(range(len(y)),test_size=0.3) #30% test
    train_X=dat.iloc[folds[0],:]
    train_y=y[folds[0]]
    test_X=dat.iloc[folds[1],:]
    test_y=y[folds[1]]


    #assume no leakage by OH whole data
    dat_dict=train_X.T.to_dict().values()
    vectorizer = DV( sparse = False )
    vectorizer.fit( dat_dict )
    train_X = vectorizer.transform( dat_dict )

    del dat_dict

    dat_dict=test_X.T.to_dict().values()
    test_X = vectorizer.transform( dat_dict )

    del dat_dict



    rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1)
    rf.fit(train_X,train_y)
    y_submission=rf.predict(test_X)
    print "Validation Sample Score: %.10f (normalized gini)." % normalized_gini(test_y,y_submission)

block 2:

dat_dict=dat.T.to_dict().values()
vectorizer = DV( sparse = False )
vectorizer.fit( dat_dict )
X = vectorizer.transform( dat_dict )

parameters= {'n_estimators': [1000]}
grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=2, verbose=1, scoring=gini_scorer,n_jobs=-1)
grid_search.fit(X,y)

print grid_search.best_params_
print grid_search.best_score_
print grid_search.grid_scores_

编辑

这是一个独立的例子，我得到了同样的差异。

from sklearn.cross_validation import StratifiedKFold, KFold, ShuffleSplit,train_test_split
from sklearn.ensemble import RandomForestRegressor , ExtraTreesRegressor, GradientBoostingRegressor
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer as DV
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.grid_search import GridSearchCV,RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from scipy.stats import randint, uniform
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston




if __name__ == '__main__':

    b=load_boston()
    X = pd.DataFrame(b.data)
    y = b.target

    #sample out 30% for validation
    folds=train_test_split(range(len(y)),test_size=0.5) #50% test
    train_X=X.iloc[folds[0],:]
    train_y=y[folds[0]]
    test_X=X.iloc[folds[1],:]
    test_y=y[folds[1]]


    rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1)
    rf.fit(train_X,train_y)
    y_submission=rf.predict(test_X)

    print "Validation Sample Score: %.10f (mean squared)." % mean_squared_error(test_y,y_submission)


    parameters= {'n_estimators': [1000]}
    grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=2, verbose=1, scoring='mean_squared_error',n_jobs=-1)
    grid_search.fit(X,y)

    print grid_search.best_params_
    print grid_search.best_score_
    print grid_search.grid_scores_

最佳答案

不确定我能否为您提供完整的解决方案，但这里有一些建议:

在调试此类问题时使用 scikit-learn 对象的 random_state 参数，因为它使您的结果真实可重现。以下将始终返回完全相同的数字:

rf=RandomForestRegressor(n_estimators=1000, n_jobs=-1, random_state=0)
rf.fit(train_X,train_y)
y_submission=rf.predict(test_X)
mean_squared_error(test_y,y_submission)

它重置随机数生成器以确保您始终获得“相同的随机性”。您也应该在 train_test_split 和 GridSearchCV 上使用它。

您在独立示例中获得的结果是正常的。通常我得到:

Validation Sample Score: 9.8136434847 (mean squared).
[mean: -22.38918, std: 11.56372, params: {'n_estimators': 1000}]

首先，请注意从 GridSearchCV 返回的均方误差是一个负均方误差。我认为这是为了保持分数函数的精神而设计的(对于分数，越大越好)。

现在这仍然是 9.81 对 22.38。然而这里的标准偏差是巨大的。它可以解释分数看起来如此不同。如果你想检查 GridSearchCV 没有做一些可疑的事情，你可以强制它只使用一个分割，和你的手动分割一样:

from sklearn.cross_validation import StratifiedKFold, KFold, ShuffleSplit,train_test_split, PredefinedSplit
from sklearn.ensemble import RandomForestRegressor , ExtraTreesRegressor, GradientBoostingRegressor
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer as DV
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.grid_search import GridSearchCV,RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from scipy.stats import randint, uniform
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston

if __name__ == '__main__':
    b=load_boston()
    X = pd.DataFrame(b.data)
    y = b.target
    folds=train_test_split(range(len(y)),test_size=0.5, random_state=15) #50% test
    folds_split = np.ones_like(y)
    folds_split[folds[0]] = -1
    ps = PredefinedSplit(folds_split)

    for tr, te in ps:
        train_X=X.iloc[tr,:]
        train_y=y[tr]
        test_X=X.iloc[te,:]
        test_y=y[te]
        rf=RandomForestRegressor(n_estimators=1000, n_jobs=1, random_state=15)
        rf.fit(train_X,train_y)
        y_submission=rf.predict(test_X)
        print("Validation Sample Score: {:.10f} (mean squared).".format(mean_squared_error(test_y, y_submission)))

    parameters= {'n_estimators': [1000], 'n_jobs': [1], 'random_state': [15]}
    grid_search = GridSearchCV(RandomForestRegressor(), param_grid=parameters,cv=ps, verbose=2, scoring='mean_squared_error', n_jobs=1)
    grid_search.fit(X,y)

    print("best_params: ", grid_search.best_params_)
    print("best_score", grid_search.best_score_)
    print("grid_scores", grid_search.grid_scores_)

希望对您有所帮助。

抱歉，我无法弄清楚您的 Gini 计分器发生了什么。我会说 0.0033xxx 似乎是一个非常低的值(几乎没有模型？)对于标准化的基尼分数。

关于python - 手动拆分与 Scikit 网格搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31387736/

文章推荐： c++ - 头文件中定义的非内联虚函数

文章推荐： c++ - 使用包含空格的命令时 ExternalProject_Add 的奇怪行为

文章推荐： python - 在 Cloud9 中安装 Python 模块 pandas

html - 给定布局的 Bootstrap 网格(或 IE 兼容的 CSS 网格)
您能否建议如何在 Bootstrap 或 IE 兼容的 CSS 网格中，在没有 CSS 网格的情况下进行以下布局。在大屏幕中头部，左侧堆叠的 body 和右侧覆盖头部和 body 高度的图像。 [
ios - 如何在 Objective-C 中使用 for 循环将 View 创建为网格(例如 9*9 网格、15*15 网格)
我想在 Objective-C 中绘制一个 15*15 的网格。格子颜色是蓝色的，就像在诺基亚制作“贪吃蛇”游戏的棋盘一样。我试过使用 for 循环来创建 subview ，但它似乎不起作用，我查看
具有自动填充和自动大小的 CSS 网格
我正在尝试将 CSS 网格与 grid-template-columns: repeat(auto-fill, auto) 一起使用，单元格被设置为最大宽度，导致每行一个元素。 p> 是否可以让元素宽
Magento，网格，添加带有网站链接的列
我正在努力在网格的自定义列上添加一个指向网站的简单、简单的链接。我用了 Inchoo blog为列添加自定义渲染器，它可以工作。我认为只需修改渲染并添加标签就足够了。但我的希望破灭了，行不通。如何做
具有交替线条样式的 Gnuplot 网格
使用 Gnuplot 我绘制了下图 - 现在，正如您在图像中看到的那样，很难在线条之间识别出其末端的块。所以我想用不同的颜色或样式交替着色网格。我现在用来给网格着色的代码是 - set style
WPF 网格 - 绘制自定义网格线
假设我有一个非常简单的 WPF 网格(6 行 x 6 列)，定义如下:
具有动态列的 wpf 网格
我有一个希望绑定(bind)到 WPF 网格的集合。我面临的问题是列数是动态的并且取决于集合。这是一个简单的模型: public interface IRows { string Messa
java - 如何手动填充表格/网格
我正在使用 Vaadin 8，我想制作某种混淆矩阵。我想知道是否可以根据单元格位置而不是数据提供者手动填充表格/网格的值。 referenceTable.addColumn(reference ->
悬停时带有单行的 CSS 网格
我在 http://jsfiddle.net/TsRJy/ 上创建了一个带有 div 框的网格. 问题我不知道如何使 a:hover 工作。信息重写 HTML 代码，因为表格不适合我。 http
具有自动宽度和高度的 Silverlight 网格
银光处女在这里。如何使网格周围的用户控件自动调整大小以适应内部网格宽度？目前，当浏览器窗口更宽时，用户控件的显示尺寸约为 300 或 400 像素。它在数据网格周围呈现垂直和水平滚动条，这很丑陋。我想
CSS 网格 - 将所有子项保持在一行且间距相等
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。使用 CSS Grid，当您不知道会有多少个子项时，如何将所有子项保留在一
CSS 网格，中间有一个额外的包装器
我想使用 CSS Grid 的 grid-template-areas。但问题是我正在使用的 CMS 添加了大量额外的包装器。有没有办法忽略额外的包装？因为它弄乱了漂亮的网格区域...... 我正在
extjs - 网格-按钮单击处理程序
在我的Grid中，当我单击“操作”按钮(下面的代码中显示的“删除和编辑”按钮)时，我需要弹出一个窗口，而不用警告消息提醒用户；在下面的代码中，我正在使用HANDLER handler: button
CSS 网格 - 将所有子项保持在一行且间距相等
这个问题已经有答案了: Equal width columns in CSS Grid (11 个回答) 已关闭 2 年前。使用 CSS Grid，当您不知道会有多少个子项时，如何将所有子项保留在一
grid - 网格/仓库布局上离散事件模拟的可视化
我需要模拟一个仓库，其中有几辆自动驾驶车辆在给定的布局上移动，并具有简单的优先级规则。根据我的理解，这个问题可以通过离散事件模拟(DES)轻松解决，我会使用 SimPy为了这。我看到的问题是，我似乎
跨用户控件的 WPF 网格？
在 ASP.NET 中，我可以让用户控件在页面上的表格中占据多个单元格: 用户控件1: foo bar 第1页: 并且自动调整列宽以适应最大的用户控件。这也可以在 WPF
Jquery 实时搜索和复选框过滤器、网格
我正在寻找一种方法来实时搜索我的网格+要过滤的复选框。我有一个包含学生的网格(照片和姓名)。我想要的是有一个复选框，可以过滤学生所在的不同类(class)。还有一个搜索栏，我可以在其中输入学生姓名。
具有自动完成功能的 jQuery 网格
我正在使用 jQuery 和 jQuery UI 构建一个 Web 应用程序。我陷入了僵局。我需要的是一个 jQuery 网格，它具有可编辑字段，并以某种方式在这些可编辑单元格之一上合并一个自动完成字
具有多个分组的 Javascript 网格
我想知道是否有其他 JavaScript 组件可以提供具有多个分组的网格表示。下面是jqGrid的截图我扩展了允许该功能，但它需要获取所有数据。我希望在扩展分组时加载数据。另一个修改后的 jqGri
CSS:网格、滚动条和工具提示问题
我一直在为我将在此处描述的 CSS 问题而烦恼: 在下面的示例 ( https://codesandbox.io/s/jjq4km89y5 ) 中，您可以看到一个可滚动的内容(紫色背景)和一个被左侧面

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 手动拆分与 Scikit 网格搜索