- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在将数据帧作为实体集中的实体传递并在其上使用 DFS 时,我们是否应该从 DFS 中排除目标变量?在手动尝试传统特征选择方法并使用特征工具查看它是否提高了分数后,我有一个模型的 roc_auc 分数为 0.76。所以在包含目标变量的实体集上使用了 DFS。令人惊讶的是,roc_auc 分数上升到 0.996,准确度上升到 0.9997,所以我对分数表示怀疑,因为我将目标变量也传递到深度特征合成中,并且与目标相关的信息可能已泄露到训练中?我假设正确吗?
最佳答案
Deep Feature Synthesis 和 Featuretools 确实允许您将目标保留在实体集中(以便使用它的历史值创建新特征),但是您需要设置“时间索引”并使用“截止时间”来做到这一点无标签泄漏。
您可以使用时间索引来指定保存每行数据何时已知的值的列。此列使用 time_index
指定使用 entity_from_dataframe
创建实体时的关键字参数.
然后,在运行 ft.dfs()
时使用截止时间或 ft.calculate_feature_matrix()
要指定最后一个时间点,您应该在计算特征矩阵的每一行时使用数据。特征计算将只使用截止时间(包括截止时间)的数据。所以,如果这个截止时间在你目标的时间索引值之前,你就不会出现标签泄漏。
您可以在 Handling Time 上的文档中详细了解这些概念。 .
如果你根本不想和目标打交道,你可以
drop_contains
ft.dfs
中的关键字参数至 ['target']
.这将阻止创建任何包含字符串 'target'
的特征。 . scheduled_time
,在安排约会时,以及
appointment_day
,这是约会实际发生的时间。我们想告诉 Featuretools 一些信息,比如患者的年龄在他们安排预约时是已知的,但其他信息,比如患者是否真的出现了,直到预约当天才能知道。
appointments
具有二级时间索引的实体如下:
es = ft.EntitySet('Appointments')
es = es.entity_from_dataframe(entity_id="appointments",
dataframe=data,
index='appointment_id',
time_index='scheduled_time',
secondary_time_index={'appointment_day': ['no_show', 'sms_received']})
scheduled_time
时使用,但变量
no_show
和
sms_received
直到二级时间索引中的值才能使用。
scheduled_time
进行预测通过将我们的截止时间设置为
cutoff_times = es['appointments'].df[['appointment_id', 'scheduled_time', 'no_show']]
no_show
列将原封不动地通过,但
no_show
的历史值仍可用于创建特征。一个例子是类似
ages.PERCENT_TRUE(appointments.no_show)
或者“过去没有出现过的各个年龄段的人所占的百分比”。
关于featuretools - 我们应该在 featuretools 中从 DFS 中排除目标变量吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50639687/
我目前正在使用我自己的数据完成功能工具演示 ( https://github.com/Featuretools/predict_next_purchase/blob/master/Tutorial.i
在将数据帧作为实体集中的实体传递并在其上使用 DFS 时,我们是否应该从 DFS 中排除目标变量?在手动尝试传统特征选择方法并使用特征工具查看它是否提高了分数后,我有一个模型的 roc_auc 分数为
我想尝试 featuretools,但我需要提示,如何将其用于我的数据集。我在 pandas 数据框中有数据,这是一个回归问题。 这是我的数据集的示例: 我尝试了什么: import featuret
我想尝试 featuretools,但我需要提示,如何将其用于我的数据集。我在 pandas 数据框中有数据,这是一个回归问题。 这是我的数据集的示例: 我尝试了什么: import featuret
我正在尝试使用 featuretools 来计算时间序列函数。具体来说,我想通过组键(user_id)从前一个(x)中减去当前(x),但是我在实体集中添加这种关系时遇到了麻烦。 df = pd.Dat
我在数据帧中有两个时间参数,即 start_date 和 end_date,当从数据帧创建实体集时,这两个参数都是时间参数。 在指定 time_index 时,我们可以指定 2 个不同的列吗? 我不想
我正在尝试向实体添加新变量。 我正在尝试添加如下变量: es['Product'].add_variable("inventory", data=inventory_series) 但是我收到了这个错
Featuretools 提供了处理分类变量的集成功能 variable_types={"product_id": ft.variable_types.Categorical} https://doc
我正在尝试使用特征工具生成特征来帮助我预测下个月的博物馆参观次数。 featuretools 可以生成时间序列的特征吗?我应该更改数据以便 id 是月份还是 featuretools 可以自动执行?
我有一个包含多个列的购买数据框,包括以下三个: PURCHASE_ID (index of purchase) WORKER_ID (index of worker) ACCOUNT_ID (i
我的数据看起来像:People <-- Events <--Activities。父对象是 People,其中唯一的变量是 person_id。 Events 和 Activity 都有一个时间索引,
我正在使用 featuretools dfs 函数使用与时间相关的聚合原语(例如 TimeSince ( https://docs.featuretools.com/api_reference.htm
当我尝试在实体集之间创建关系(使用我自己的数据)时遇到问题。没有错误,但它只是没有为我的实体之一(“prods”实体)创建功能,尽管一切都应该连接得很好。 我无法共享我的数据,但我使用一些模拟数据创建
我正在尝试根据之前的结果预测足球比赛的结果。我在 Windows 上运行 Python 3.6 并使用 Featuretools 0.4.1。 假设我有以下表示结果历史记录的数据框。 Original
Featuretools 已经支持处理多个截止时间 https://docs.featuretools.com/automated_feature_engineering/handling_time.
我使用了@willk 的答案,但它弹出了一个错误。在这里查看威尔克的回答。 willk's anser我无法在他的回答中发表评论,因为我没有足够的声誉(超过 50)。 所以我的问题是如何使下面的代码工
featuretools文档在其第一句话中指出: “Featuretools 是一个执行自动化特征工程的框架。它擅长将时间和关系数据集转换为机器学习的特征矩阵。” 这似乎暗示数据集必须有一个日期时间列
我尝试按照 featuretools.com 的文档学习功能工具。 出现错误:AttributeError: 'EntitySet' 对象没有属性 'entity_from_dataframe' 你能
使用 featuretools 时有没有办法在运行时显示进度条 dfs ? 最佳答案 在 dfs 中设置参数 verbose=True函数调用应该给你一个进度条。 关于运行 dfs 时的 featur
我正在使用 featuretools 为当前行生成历史特征。例如, session 期间最后一小时的交易数量。 包 featuretools 包含参数 cutoff_time 以及时排除 cutoff
我是一名优秀的程序员,十分优秀!