- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我试图了解如何 word2vec example有效,但并不真正理解传递给 nse_loss 函数的权重和偏差的目的是什么。该函数有两个变量输入:权重(加上偏差)和嵌入。
# Look up embeddings for inputs.
embeddings = tf.Variable(
tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
embed = tf.nn.embedding_lookup(embeddings, train_inputs)
# Construct the variables for the NCE loss
nce_weights = tf.Variable(
tf.truncated_normal([vocabulary_size, embedding_size],
stddev=1.0 / math.sqrt(embedding_size)))
nce_biases = tf.Variable(tf.zeros([vocabulary_size]))
两者都是随机初始化的,并且(据我所知)两者都会在学习过程中进行更新。
# Compute the average NCE loss for the batch.
loss = tf.reduce_mean(
tf.nn.nce_loss(nce_weights, nce_biases, embed, train_labels,
num_sampled, vocabulary_size))
我认为它们都应该代表经过训练的模型。然而,权重和偏差稍后不会用于相似性计算。相反,只使用一个组件:
# Compute the cosine similarity between minibatch examples and all embeddings.
norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
normalized_embeddings = embeddings / norm
valid_embeddings = tf.nn.embedding_lookup(
normalized_embeddings, valid_dataset)
similarity = tf.matmul(
valid_embeddings, normalized_embeddings, transpose_b=True)
那么模型的第二个组成部分呢?为什么权重和偏见被忽视?
谢谢。
最佳答案
在 word2vec 中,您想要的是单词的向量表示。为此,您可以使用神经网络等。所以你有输入神经元、输出和隐藏层。学习向量表示的方法是建立一个隐藏层,其神经元数量与向量中所需的维度相同。每个字有一个输入,每个字有一个输出。然后训练网络从输出中学习输入,但在中间有一个较小的层,您可以将其视为向量中输入的编码。这是权重和偏差。但稍后您不需要它们,您用于测试的是一个字典,其中包含单词和代表该单词的向量。这比运行神经网络来获取表示更快。这就是为什么你以后看不到它。
你写的关于余弦距离的最后一个代码是为了知道哪些向量与你计算的向量接近。您有一些单词(向量),您进行了一些操作(例如:国王 - 男人 + 女人),然后您有一个要在结果中转换的向量。这是所有向量之间运行的余弦函数(皇后与运算结果向量的距离最小)。
总而言之,您在验证阶段看不到权重和偏差,因为您不需要它们。您使用在训练中创建的字典。
更新 s0urcer 更好地解释了如何创建矢量表示。
网络的输入层和输出层代表单词。这意味着如果该单词不存在,则该值为 0;如果该单词存在,则该值为 1。第一个位置是一个单词,第二个位置是另一个单词,依此类推。您的输入/输出神经元就像单词一样。
中间层是上下文,或者是单词的向量表示。
现在,您使用句子或一组连续单词来训练网络。从这一组中,您取出一个单词并将其设置为输入,其他单词作为网络的输出。所以基本上网络会学习一个单词如何与其上下文中的其他单词相关。
要获得每个单词的向量表示,您将该单词的输入神经元设置为 1 并查看上下文层(中间层)的值。这些值是向量的值。由于除了单词为 1 之外的所有输入均为 0,因此这些值是输入神经元与上下文的连接权重。
稍后你不再使用网络,因为你不需要计算上下文层的所有值,那样会更慢。您只需要在字典中检查该单词的这些值是什么。
关于machine-learning - tensorflow word2vec 示例中权重和偏差的目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37982478/
我正致力于通过 OAuth 合并外部 API,但对 expires_in 属性的用途有点迷惑。通过阅读,应该对 api token 的使用进行防御性编码,因为您应该预料到 token 在任何时候都可能
有人可以概述或总结一下 Spring 框架上下文中 bean 的用途吗? 我了解标准的 Java bean(没有 arg 构造函数、getter/setter,通常是序列化的),但 Spring be
使用 OpenGL 4.1 和 ARB_separate_shader_objects,我们能够在着色器程序中存储着色管道的不同阶段。众所周知,要使用这些,我们需要将它们附加到程序管道对象,然后绑定(
正如我从文档中了解到的那样,“MoveIteratorFactory”的目的是生成每一步都需要执行的 Action 。 “getSize”方法的移动子集有多大? “createOriginalMove
请解释 CMakeLists.txt 中这一行的目的是什么: 包括(InstallRequiredSystemLibraries) 我在 CMake 示例中看到这一行,但找不到好的解释,为什么我需要它
这里是新手。我仍在尝试理解在多个布局中运行单个进程或目的的概念。 例如,我想在我的申请中添加“提交后”功能。有一个包含标题、内容等文本框的主布局,以及一个链接到另一个布局以选择类别的按钮。我的问题是,
我在看 Box Oauth2.0 View Controller : https://github.com/box/box-ios-sdk-v2/blob/master/BoxSDK/OAuth2/B
我编写了一个将字符串复制到系统剪贴板的 Java 应用程序。构造函数使用 Clipboard.setContents(Transferable contents, ClipboardOwner own
阅读此文后:http://sourcemaking.com/design_patterns/command 我还是不太明白为什么我们需要这个。 最佳答案 想法是,如果命令被封装为对象,那么这些命令可以
我知道 c++ 中的模板是做什么的,但是今天我看到了一些奇怪的代码: template <> void swap(foo &a, foo &b) { a.name = b.name; a.
我不太明白 C# Collections 中 IEnumerator 的用途是什么。它的用途是什么,为什么要使用它? 我试着在线查看 http://msdn.microsoft.com/en-us/l
不幸的是,我今天做了一些代码考古(同时重构了一些旧的危险代码)并发现了这样的小化石: # line 7 "foo.y" 能在里面找到如此古老的宝藏,我完全惊呆了。我在 C 编程的网站上阅读了它。然而,
您能否澄清一下此注释的实际用途? - 如果我们没有使用数据库中的 SQL 表定义定义相应的约束,会发生什么情况。当我们尝试插入时,hibernate 会检查唯一性吗?或者这就是DB的目的吗?如果 hi
我在视频教程中看到过这段代码: const navToggle = ["Menu"].join(""); $(".site-header").prepend(navToggle); 我明白它的基本作用
我想知道这个成员函数的 scroll_to(TextBuffer::iterator& iter, double within_margin = 0)参数 within_margin。 API 是这样
我想知道是否可以将子目录提交到目录例如,假设您有 site.com/directory 可以将子目录提交到目录。我即将开始为希望她的网站在搜索引擎中排名靠前的客户进行一些搜索引擎优化。我知道实现此目的
STL 迭代器的用途是什么?为什么程序员要创造这个概念? 最佳答案 迭代器允许您将算法与容器分开。只要您有开始和结束迭代器,并且知道迭代器的功能(随机访问等),您就可以在迭代器指定的范围内进行操作。例
NSData *responseData = [NSURLConnection sendSynchronousRequest:theRequest returningResponse:&respons
我正在编写代码,使用通用的 linux i2c 驱动程序 linux/i2c-dev.h 实现一个简单的 i2c 读/写功能 我对 ioctl 感到困惑:I2C_SLAVE 内核文档说明如下: You
在尝试克隆可变集合时,我最初的方法是对 mutable.Cloneable 特征使用 clone() 方法。但是,这取决于创建引用副本的 java.Object.clone 实现,而不是深拷贝。通过测
我是一名优秀的程序员,十分优秀!