- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
考虑以下 CSV 文件 ( example.csv
)
animal,size,weight,category
lion,large,200,mammal
ostrich,large,150,bird
sparrow,small,0.1,bird
whale,large,3000,mammal
bat,small,0.2,mammal
snake,small,1,reptile
condor,medium,12,bird
目标是将所有分类值转换为 one-hot 编码。 standard在 Tensorflow 2.0 中执行此操作的方法是使用 tf.data
。按照该示例,处理上述数据集的代码是
import collections
import tensorflow as tf
# Load the dataset.
dataset = tf.data.experimental.make_csv_dataset(
'example.csv',
batch_size=5,
num_epochs=1,
shuffle=False)
# Specify the vocabulary for each category.
categories = collections.OrderedDict()
categories['animal'] = ['lion', 'ostrich', 'sparrow', 'whale', 'bat', 'snake', 'condor']
categories['size'] = ['large', 'medium', 'small']
categories['category'] = ['mammal', 'reptile', 'bird']
# Define the categorical feature columns.
categorical_columns = []
for feature, vocab in categories.items():
cat_col = tf.feature_column.categorical_column_with_vocabulary_list(
key=feature, vocabulary_list=vocab)
categorical_columns.append(tf.feature_column.indicator_column(cat_col))
# Retrieve the first batch and apply the one-hot encoding to it.
iterator = iter(dataset)
first_batch = next(iterator)
categorical_layer = tf.keras.layers.DenseFeatures(categorical_columns)
print(categorical_layer(first_batch).numpy())
运行上面的代码,得到
[[1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0.]
[0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0.]
[0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1.]
[0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1.]]
看起来像最后两列 size
和category
尽管 categories
已被翻转是一个有序字典以及实际数据集中列的预先存在的顺序。就好像tf.feature_column.categorical_column_with_vocabulary_list()
对列进行了一些不必要的字母排序。
出现上述情况的原因是什么?这真的是本着tf.data
的精神进行one-hot编码的最佳方式吗? ?
最佳答案
tf.feature_column.categorical_column_with_vocabulary_list() 处未进行排序
。如果打印categorical_columns
,您将看到这些列仍然按照您将它们添加到feature_column 的顺序排列:
[
IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='animal', vocabulary_list=('lion', 'ostrich', 'sparrow', 'whale', 'bat', 'snake', 'condor'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='size', vocabulary_list=('large', 'medium', 'small'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='category', vocabulary_list=('mammal', 'reptile', 'bird'), dtype=tf.string, default_value=-1, num_oov_buckets=0))
]
排序发生在 tf.keras.layers.DenseFeatures对象。
在代码中,您可以看到排序发生在哪里 here (我通过跟踪从 tf.keras.layers.DenseFeatures 类到 tensorflow.python.feature_column.dense_features.DenseFeatures 类到 tensorflow.python.feature_column.feature_column_v2._BaseFeaturesLayer 类到 _normalize_feature_columns 函数的类继承发现了这一点)。
那么为什么要排序呢? Elsewhere在包含 _normalize_feature_columns
函数(对数据进行排序的函数)的同一文件中,有一个类似的排序函数,并带有以下注释:
# Sort the columns so the default collection name is deterministic even if the
# user passes columns from an unsorted collection, such as dict.values().
我认为这个解释也适用于为什么在使用 tf.keras.layers.DenseFeatures 类时对列进行排序。您的列和数据是一致的,但 TensorFlow 并不假设输入是一致的,因此它会对输入进行排序以确保顺序一致。
关于python - 使用 tf.data 的 One-hot 编码会混淆列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60064351/
我已经使用 flutter_web 有一段时间了,从来没有真正质疑过它在按下“热重载”时总是重新启动整个应用程序,但自从现在 flutter_web 被合并到主要的 flutter channel 我
我正在使用 webpack-dev-server处于开发模式( watch )。每次服务器重新加载时,一些 json 和 js 文件都会挤满我的构建目录,如下所示:'hash'.hot-update.
我正在尝试让 React-hot-loader 3 与 React-hot-loader 3、React-router 4 和 Webpack-hot-middleware(最新版本,2.18.2)一
我正在尝试使用 Handsontable 版本 0.34.4CE/1.14.2 PRO 在 Handsontable (HOT-in-HOT) 中创建 Handsontable。根据此处提供的文档,一
使用one-hot encoding,一旦你有一个包含 1 个值的列,让我们说“color”,pandas get_dummies 将做如下: df = pd.DataFrame({'f1': ['r
鉴于这些是我正在使用的依赖项: "react-hot-loader": "3.0.0-beta.7", "webpack": "2.6.1", "webpack-dev-middleware": "^
我在我的输出目录中建立了一系列热加载器文件 (*.hot-loader.json)。如何确保此输出目录清除不必要的文件? 注意:我也在使用 Webpack。 最佳答案 使用 webpack-middl
我是机器学习和深度学习的新手。我想解决时间序列问题,该问题每秒都有数据。另外,我最近一直在研究word2vector和时间序列数据。有一天,我想到了一个想法,将日期时间等序列数据转换为 one-hot
我正在尝试让 React Hot Reloader 适用于我的 ReactJS 项目,但收到错误错误:找不到相对于目录的预设“react-hot”... 我确实在 .babelrc 中设置了预设“re
基于网络阅读、堆栈溢出,主要是 these articles关于与编码恐怖相关的数据库版本控制,我已经尝试编写一个计划来对一个有 8 年历史的 php mysql 网站的数据库进行版本控制。 Data
我正在尝试想出一种方法来确定某些帖子在论坛中的“热门”程度。你会使用什么标准,为什么?如何将这些结合起来得出热度分数? 我考虑的标准包括: 有多少回复 距离上次回复有多久 平均回复时间 该算法必须解决
我正在尝试复制 reddit's hot algortithm用于整理我的帖子。这是我的功能: def hot(self): s = self.upvotes baseScore =
先给大家展示下效果图,看看是不是在你的意料之中哈。 labelview是在github上一个开源的标签库。其项目主页是:https://github.com/linger1216//label
我的R代码有问题,而缺少值。实际上不知道如何使用简单的Hot Deck方法估算这些值。例如,拥有这些数据。 1 10000123 111 112820 0.24457235 NA
我正在研究有关Node.js的教程,网址为:http://www.johnpapa.net/get-up-and-running-with-node-and-visual-studio/ 我可以让该应
我有一个像这样的 CSV 文件 我想选择最后一列并使每个序列的字符级单热编码矩阵,我使用此代码但它不起作用 data = pd.read_csv('database.csv', usecols=[4]
我有一个包含混合字符串的列,我创建了列来表示字符串中的每个唯一字符。我需要用 [1,0] 对列进行编码如果字符串中的任何字符与这些列之一匹配。 library(data.table) d = data
当 Jetty 上有原生 Java 代码时,您可以执行热部署。 例如,这使您可以更改 servlet 代码,而无需重新启动服务器即可查看应用程序更改。 但是,如果您在 Java 之上运行脚本语言 -
假设我想从 Reddit 子版 block “新闻”流式传输帖子。然而,帖子非常频繁,我们不能说每个帖子都值得。所以我想通过尝试流式传输“热门”列表来过滤好帖子。但我不确定这是否可能,或类似的事情是否
这是我的服务器代码: if (process.env.NODE_ENV === 'development') { // Enable logger (morgan) a
我是一名优秀的程序员,十分优秀!