python - 将实体嵌入映射回原始分类值-6ren

python - 将实体嵌入映射回原始分类值

转载作者：行者123 更新时间：2023-11-30 09:43:46

24

4

我正在使用 Keras 嵌入层来创建在 Kaggle Rossmann 商店销售 3rd place entry. 上流行的实体嵌入。但是，我不确定如何将嵌入映射回实际的分类值。让我们看一个非常基本的示例:

在下面的代码中，我创建了一个包含两个数字特征和一个分类特征的数据集。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from keras.models import Model
from keras.layers import Input, Dense, Concatenate, Reshape, Dropout
from keras.layers.embeddings import Embedding

# create some fake data
data, labels = make_classification(n_classes=2, class_sep=2, n_informative=2,
                                   n_redundant=0, flip_y=0, n_features=2,
                                   n_clusters_per_class=1, n_samples=100,
                                   random_state=10)

cat_col = np.random.choice(a=[0,1,2,3,4], size=100)

data = pd.DataFrame(data)
data[2] = cat_col
embed_cols = [2]

# converting data to list of lists, as the network expects to
# see the data in this format
def preproc(df):
    data_list = []

    # convert cols to list of lists
    for c in embed_cols:
        vals = np.unique(df[c])
        val_map = {}
        for i in range(len(vals)):
            val_map[vals[i]] = vals[i]
        data_list.append(df[c].map(val_map).values)

    # the rest of the columns
    other_cols = [c for c in df.columns if (not c in embed_cols)]
    data_list.append(df[other_cols].values)
    return data_list

data = preproc(data)

分类列有 5 个唯一值:

print("Unique Values: ", np.unique(data[0]))
Out[01]: array([0, 1, 2, 3, 4])

然后将其输入带有嵌入层的 Keras 模型中:

inputs = []
embeddings = []

input_cat_col = Input(shape=(1,))
embedding = Embedding(5, 3, input_length=1, name='cat_col')(input_cat_col)
embedding = Reshape(target_shape=(3,))(embedding)
inputs.append(input_cat_col)
embeddings.append(embedding)


# add the remaining two numeric columns from the 'data array' to the network
input_numeric = Input(shape=(2,))
embedding_numeric = Dense(8)(input_numeric)
inputs.append(input_numeric)
embeddings.append(embedding_numeric)

x = Concatenate()(embeddings)
output = Dense(1, activation='sigmoid')(x)

model = Model(inputs, output)
model.compile(loss='binary_crossentropy', optimizer='adam')

history = model.fit(data, labels,
                    epochs=10,
                    batch_size=32,
                    verbose=1,
                    validation_split=0.2)

我可以通过获取嵌入层的权重来获取实际的嵌入:

embeddings = model.get_layer('cat_col').get_weights()[0]
print("Unique Values: ", np.unique(data[0]))
print("3 Dimensional Embedding: \n", embeddings)

Unique Values:  [0 1 2 3 4]
3 Dimensional Embedding: 
 [[ 0.02749949  0.04238378  0.0080842 ]
 [-0.00083209  0.01848664  0.0130044 ]
 [-0.02784528 -0.00713446 -0.01167112]
 [ 0.00265562  0.03886909  0.0138318 ]
 [-0.01526615  0.01284053 -0.0403452 ]]

但是，我不确定如何将它们映射回来。可以安全地假设权重已排序吗？例如，0=[ 0.02749949 0.04238378 0.0080842 ]？

最佳答案

是的，嵌入层的权重对应于按顺序按整数索引的单词，即嵌入层中的权重数组 0 对应于索引为 0 的单词，依此类推。您可以将嵌入层视为一个查找表，其中表的nth行对应于nth 个单词(但嵌入层是可训练层，而不仅仅是静态查找表)

inputs = Input(shape=(1,))
embedding = Embedding(5, 3, input_length=1, name='cat_col')(inputs)
model = Model(inputs, embedding)

x = np.array([0,1,2,3,4]).reshape(5,1)
labels = np.zeros((5,1,3))

print (model.predict(x))
print (model.get_layer('cat_col').get_weights()[0])

assert np.array_equal(model.predict(x).reshape(-1), model.get_layer('cat_col').get_weights()[0].reshape(-1))

模型.预测(x):

[[[-0.01862894,  0.0021644 ,  0.04706952]],
 [[-0.03891206,  0.01743075, -0.03666048]],
 [[-0.01799501,  0.01427511, -0.00056203]],
 [[ 0.03703432, -0.01952349,  0.04562894]],
 [[-0.02806044, -0.04623617, -0.01702447]]]

model.get_layer('cat_col').get_weights()[0]

[[-0.01862894,  0.0021644 ,  0.04706952],
 [-0.03891206,  0.01743075, -0.03666048],
 [-0.01799501,  0.01427511, -0.00056203],
 [ 0.03703432, -0.01952349,  0.04562894],
 [-0.02806044, -0.04623617, -0.01702447]]

关于python - 将实体嵌入映射回原始分类值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55343375/

24

4

0

文章推荐： Java:从打开的 RandomAccessFile 实例中获取文件名

文章推荐： java - 我可以从 JVM 内部知道 jdwp 传输端口吗？

文章推荐： javascript - 流式返回函数时不保留泛型函数参数

文章推荐： java - Spring Integration Gateway 中的静态和动态 header

c++ - 我是否需要在下次转移时将所有权*回*转移到转移队列？
我打算使用 vulkan synchronization examples 之一作为如何处理不经常更新的统一缓冲区的引用。具体来说，我正在看这个: vkBeginCommandBuffer(...);
git - 将分支和子分支 merge 回 master
我对 git 的了解有限。我已经从 master 创建了一个分支 B1，进行了一些编辑并提交到这个分支。我想从 B1 创建另一个分支 B2，我在 B2 中进行了一些编辑而且我还想提交 B2(包含
git - 如何将更改 merge 回 HEAD
这是我做的我创建了一个分支 abc。然后我创建了两个文本文件 one.txt 和 two.txt。然后我将它们提交到分支 abc。然后我从分支中删除文件 one.txt 并将这些更改提交到分支。现
git - 将已删除文件的分支 merge 回 master
在我的主分支中，我得到了 2 个文件: file1.txt file2.txt 我从那里创建了名为 b1 的新分支。在b1中，我修改了file2.txt，不小心删除了file1.txt(从磁盘中，当我
Git 基础 - merge 回 master
我是 git 的新手。我创建了一个分支，进行了更改，现在我想 merge 回 master 以使它们“永久化”。所以我执行了 git merge 1.2 报告为已经是最新的，在 master 上执
Git - 将 master merge 回 develop？
我在一个新团队中，工作方式与我以前习惯的完全不同，我们在功能分支上工作，测试人员会在该功能分支上进行测试，然后我们会运行一个 jenkins 作业在该功能被测试签署时将该功能 merge 到开发中，根
C - realloc 不反射(reflect)回 main
我目前正在学习动态内存管理是如何工作的，更具体地说是 realloc 以及它是如何在函数中完成的。在下面的程序中，我只是想尝试使用 malloc 在函数 a() 中分配一些数字，然后将它们传递给另一
java - 你如何分派(dispatch)回 Java 中的主线程？
在 Java 中如何从另一个线程分派(dispatch)回主 UI 线程？我正在使用带有 Runnable 的执行器在主 UI 线程之外做一些工作，并且我有一个接口(interface)，以便可以通过
Git:将一个新的提交 merge 回 master，这是针对一个非常旧的提交
我在 git 中有一个项目，所有的事情都直接在 master 分支上完成，标签被用来标记代码的发布版本。我知道这并不理想，并且一直在查看 git 流程，例如:http://nvie.com/posts
Git:如何找到所有从未 merge 回 master 的分支
我们有一个相当大的 GIT 存储库，我想删除从未 merge 回 master 的分支。反过来也很好 - 一种列出在某个时候已 merge 到 master 中的所有分支的方法。我希望首先获取一个
c - 将字符串从 Swift 传递到 C 回 Swift
在 Swift 和 C 之间传递字符串时，我看到一些我不理解的行为。请考虑以下 Swift 函数: func demo() { print("\n\n\n\n")
git - 如何在不丢失我在 github 上的工作的情况下 merge 回 master？
我以前从未合作过，现在我发现自己需要与其他一些人分享这个项目，即使我将完成 90% 的开发工作。我在 github 上有一个私有(private)仓库。我用推送了我的初始源 git push or
git - 是否应该将 "merge commit" merge 回 dev 分支？
我们的项目使用 Gitlab，我们有两个长期存在的分支:dev 和 master，类似于 Git Flow。我们正在使用“merge 提交”方法，它将在主分支中创建一个 merge 提交。但是，由于
cocoa - 将 NSArrayController 绑定(bind)回 ivar 时出现问题
我对自定义 View 的绑定(bind)属性有疑问。该属性绑定(bind)到核心数据实体的 NSArrayController。问题是这样的: 在我看来，我画了几个矩形。这些矩形的位置保存在核心数据
java - 将 TreeMap.Submap 返回 : SortedMap, 回 TreeMap
这对我来说似乎太棘手，无法正确执行此操作。我有一个TreeMap ，我正在获取其中的子图: public static reqObj assignObj(reqObj vArg, i
Silverlight - 从 DataGrid 列绑定(bind)回 View 模型的根属性？
我有以下 XAML: 所以，基本上我希望将其中一
javascript - AngularJS:ui-select 将数据绑定(bind)回 select
我正在使用 Angular js 1.3.4 版本并使用 ui-select。我正在将复杂的多级 JSON 对象数组绑定(bind)到此 ui-select，它工作正常。因此用户可以在此选择中选择任
c# - 将所有 NLog 日志绑定(bind)回 WebAPI 中的原始请求的方法？
我正在使用 WebAPI 构建 API，并且一直在使用 NLog 在整个堆栈中进行日志记录。我的 API 解决方案有两个主要项目，包括: 实现 Controller 和 webapi 东西的网站层本身
Git:如何找到分支 A 中源自派生分支 B 并 merge 回 A 的所有提交？
在 Git 中，给定 (1) 一个分支 A 和 (2) 一个在过去某个时间从 A 派生的分支 B，然后 merge 回 A，我如何才能找到现在 A 中起源于 B 的所有提交？目的是确定现在在 A 中
java - Struts2如何将Set
从 View 绑定(bind)回 Controller
假设我的 Controller 如下所示: public class myController { private MyCustomItem acte; ... // gett
行者123

个人简介
我是一名优秀的程序员,十分优秀！
作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？
滴滴打车优惠券免费领取
全站热门文章

.NET周刊【12月第3期2024-12-15】

JVM简介—3.JVM的执行子系统

leetcode05回文字符串

Promise/A+规范-中文版本

Socat命令总结

在openEulerRISC-V上无痛部署Solidity

Windows记录开机后应用启动慢的问题

开源forHuawei，Beam适配GaussDB实践案例分享

性能优化！突破性能瓶颈的尖兵CPUCache

Redis-十大数据类型
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
 广告合作:1813099741@qq.com 6ren.com

首页

博学

6Ren·AI

商城

python - 将实体嵌入映射回原始分类值