gpt4 book ai didi

python - 如何使用featuretools为新数据(我们要对其进行预测)创建特征

转载 作者:行者123 更新时间:2023-12-01 19:18:03 24 4
gpt4 key购买 nike

我有一个数据框,想要使用特征工具来进行自动特征工程部分。我可以使用规范化实体功能来做到这一点。代码片段如下:

es = ft.EntitySet(id = 'obs_data')
es = es.entity_from_dataframe(entity_id = 'obs', dataframe = X_train,
variable_types = variable_types, make_index = True, index = "Id")
for feat in interaction: # interaction columns are found using xgbfir
es = es.normalize_entity(base_entity_id='obs', new_entity_id=feat, index=feat)
features, feature_names = ft.dfs(entityset = es,
target_entity = 'obs',
max_depth = 2)

它正在创建功能,现在我想为 X_test 做同样的事情。我阅读了有关此的博客,他们建议将 X_train 和 X_test 结合起来,然后执行相同的过程。假设 X_test 中有 5 个观测值,如果我将它与 X_train 结合起来,那么每个观测值(来自 X_test)也会对其他 4 个观测值(X_test)产生影响,这不是一个好主意。任何人都可以建议如何使用特征工具对新数据进行特征工程?

最佳答案

您可以尝试使用cutoff times它指定观察可用于特征计算的最后一个时间点。标签可以与截止时间一起传递,以确保它们与特征矩阵保持对齐。然后,您可以将特征矩阵拆分为 X_trainX_test

对于新数据,规范化应该是可重复的,以便实体集可以具有相同的结构。然后,您可以像往常一样计算具有截止时间的特征。您可能还想查看Compose它根据您定义预测问题的方式自动生成截止时间。如果截止时间在您的用例中不起作用,我将需要更多详细信息以更好地了解每个观察结果将如何影响其他观察结果。让我知道这是否有帮助。

关于python - 如何使用featuretools为新数据(我们要对其进行预测)创建特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60075915/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com