- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在评估两种不同的无监督机器学习算法,隔离森林和 LSTM 自动编码器模型,以识别大型时间序列数据中的异常。该数据集主要包括分类数据,例如 Ip 地址、云订阅 ID、租户 ID、userAgent 和客户端应用程序 ID。
当读取 tutorial 时在 Tensorflow 的决策树 (TF-DF) 模型的实现中,它提到该模型 native 处理非标签分类值,并且
there is no need for preprocessing in the form of one-hot encoding, normalization or extra is_present feature.
有谁知道 Tensorflow 如何在幕后处理分类特征(假设他们做了一些转换成数字表示)?
最佳答案
Tl;dr:有一种在决策树/森林中使用分类特征的自然方式,不需要编码。 Tensorflow 决策森林使用这个和许多标准转换来处理分类特征。
Tensorflow 决策森林 (TF-DF) 构建决策树/决策森林模型。单个决策树沿其特征递归地拆分数据集。沿着分类特征的拆分可以自然地通过所谓的集合条件来执行。例如,一棵树可以表达类似 userAgents\in\{“Mozilla/5.0”, “InternetExplorer/10.0”\}
的条件。其他类型的条件是 also possible .如果数据集包含分类特征,Tensorflow 决策森林 (TF-DF) 可以构建集合条件。
更具体地说,Tensorflow Decision Forests 使用 C++ 库 Yggdrasil Decision Forests (YDF) 在引擎盖下进行任何高级计算。盐电报价three different algorithms用于找到良好的数据分类拆分。例如,Random
算法将随机尝试许多可能的分割并选择最佳分割。
出于性能和质量原因,YDF 还对分类特征进行了预处理:如果分类值非常罕见,YDF 可能会将其视为“不在字典中”,“罕见”的阈值为 user-configurable .此外,YDF 通过降低项目频率将分类特征映射到整数,并将映射存储为模型的一部分。请注意,这纯粹是一种内部编码;算法知道特征是分类的,因此整数编码的典型问题不适用。
最后,Tensorflow 决策森林 (TF-DF) 使用 Keras,它期望分类任务具有整数标签。因此,TF-DF 用户必须自己对标签进行编码或使用内置的 pd_dataframe_to_tf_dataset .
请注意,此答案仅适用于 Tensorflow 决策森林。 Tensorflow 的其他部分可能需要手动编码。
关于python - Tensorflow 的决策森林如何处理分类数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74744899/
是否有显示测试用例数量以提供决策/条件覆盖率的工具? 例如: if(x>0) if(x0) 3 个案例足以覆盖决策/条件。 if(x>0) if(x0) 4 个案例足以覆盖决策/条件。 这是真的吗?
我正在尝试找到一种优雅的方式来实现易于维护的决策算法,因为决策的条件可能经常变化。 我将尝试更具体地举一个例子: 假设我正在尝试管理一家餐厅厨房的 cooking 厨师团队。 每个厨师都知道如何 co
我需要一个 Android Activity ,它应该显示一个字段,如带有图像的标题和其下方的几个动态生成的项目(我认为是 1 到 100)。如果我不想让 headsection 滚动,我会使用 Li
我正在编写函数以从值列表中提供最大值(value)。我的问题是如果所有值都相同怎么办?例如, 30,29,34,45 简单。最大值为 45。现在, 20,20,20,20 这里的最大值是20吗?或者没
我需要知道哪个检索事件日志的速度更快,但我在比较中找不到:假设需要查找的所有列都有btree索引,需要查找的json对象中的所有键都有GIN索引。 case 1: ActivityID (in
我需要在我的 iPhone 应用程序中显示一个表格: neither the number of cells nor the contents are known at compile time, b
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
这是针对在 MinGW/Windows 上使用 SDL 的小型游戏项目。 我正在研究一个物理引擎,我的想法是拥有一个Physics::Object,所有物理对象都应该派生自它,并且它会在全局 Phys
我有一个小的 LINQ 查询来填充下拉控件(WinForms Telerik 应用程序),其中的数据行显示两个值(ITNBR 和描述): var query = from i in db.ItemMa
我正在尝试使用 antlr 3 为我的语法生成词法分析器和解析器。有人可以解释这个错误是什么意思吗? error(211): T.g:14:6: [fatal] rule stmt has non-L
partykit包很好地表示了决策树。我遇到的唯一问题是标签很长然后它们重叠。是否可以移动这些标签以防止它(见下图中的蓝色箭头)? library("rpart") library("partykit
所以我环顾四周,似乎找不到合适的解决方案来解决我的问题。 问题 在我的布局中,我希望能够根据数据库中的内容选择在运行时是否存在导航项: 当前布局(导航栏) @Html.Acti
我目前正在创建一个机器学习 jupyter 笔记本作为一个小项目,并希望显示我的决策树。但是,我能找到的所有选项都是导出图形然后加载图片,这相当复杂。 所以想问问有没有办法不用导出加载图形,直接显示我
grammar AdifyMapReducePredicate; PREDICATE : PREDICATE_BRANCH | EXPRESSION ; PREDICA
我是一名优秀的程序员,十分优秀!