- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道我是否正确理解了在自然语言处理中使用世界嵌入的想法。我想向您展示我的看法,并询问我的解释是否正确。
假设我们想要预测句子是肯定的还是否定的。我们将使用在维度等于 100 的非常大的文本语料库上准备的预训练词嵌入。这意味着对于每个词我们有 100 个值。我们的文件如下所示:
...
new -0.68538535 -0.08992791 0.8066535 other 97 values ...
man -0.6401568 -0.05007627 0.65864474 ...
many 0.18335487 -0.10728102 0.468635 ...
doesnt 0.0694685 -0.4131108 0.0052553082 ...
...
显然我们有测试和训练集。我们将使用 sklearn 模型来拟合和预测结果。我们的火车组看起来是这样的:
1 This is positive and very amazing sentence.
0 I feel very sad.
测试集包含如下句子:
In my opinion people are amazing.
我主要对输入数据的预处理有疑问。我想知道是否应该这样做:
我们对所有句子进行标记化、删除停用词、小写等。因此,对于我们的示例,我们得到:
'this', 'is', 'positive', 'very', 'amazing', 'sentence'
'i', 'feel', 'very', 'sad'
'in', 'my', 'opinion', 'people', 'amazing'
我们使用pad_sequences
:
1,2,3,4,5,6
7,8,4,9
10,11,12,13,5
此外,我们检查训练集和测试集中最长句子的长度。假设在我们的例子中最大长度等于 10。我们需要所有向量具有相同的长度,因此我们用零填充其余字段。
1,2,3,4,5,0,0,0,0,0
6,7,4,8,0,0,0,0,0,0
10,11,12,13,5,0,0,0,0,0
现在最大的疑问 - 我们将单词嵌入 word2vec 文件中的值分配给训练集和测试集准备好的向量中的所有单词。
我们的词嵌入 word2vec 文件如下所示:
...
in -0.039903056 0.46479827 0.2576446 ...
...
opinion 0.237968 0.17199863 -0.23182874...
...
people 0.2037858 -0.29881874 0.12108547 ...
...
amazing 0.20736384 0.22415389 0.09953516 ...
...
my 0.46468195 -0.35753986 0.6069699 ...
...
例如,'in', 'my', 'opinion', 'people', 'amazing'
等于 10,11,12,13,5,0, 0,0,0,0
我们得到这样的表的表:[-0.039903056 0.46479827 0.2576446 ...],[0.46468195 -0.35753986 0.6069699 ...],[0.237968 0.17199863 -0.23182874 ...],[0.2037858 -0。 29881874 0.12108547 ...],[0.20736384 0.22415389 0.09953516 ... ],0,0,0,0
最后我们的火车组看起来是这样的:
x y
1 [0.237968 0.17199863 -0.23182874...],[next 100 values],[next 100 values],[...],[...],0,0,0,0,0,
0 [...],[...],[...],[...],[...],[...],[...],0,0,0
1 [...],[...],[...],[...],[...],0,0,0,0,0
...
测试集看起来是这样的:
y
[100 values],[...],[...],[...],0,0,0,0,0,0
...
在最后一步中,我们使用 sklearn 模型来训练我们的模型:
LogisticRegression().fit(values from y column of train set, values from x column of train set)
然后我们预测数据:
LogisticRegression().predict(values from y column of test set)
上面我描述了整个过程,并给出了最让我疑惑的具体步骤。我请你指出我在推理和解释中所犯的错误。我想确保我理解正确。预先感谢您的帮助。
最佳答案
逻辑回归接受 X 输入的平面二维矩阵,但您试图向其中提供一个奇怪的坚固结构 - 这是行不通的。
我建议一个更简单的解决方案 - 只需使用句子中每个单词的平均嵌入作为逻辑回归的输入。在这种情况下,该输入将具有规则的形状并且相对较小。如果你想改进这个公式,你可以对这个平均值进行加权(例如通过 TF-IDF)。
如果您想将句子建模为嵌入序列,则需要比逻辑回归更复杂的模型 - 例如循环神经网络。
关于python - 我是否很好地理解词嵌入(例如逻辑回归)的使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50659994/
我正在开发一个小型 Web 应用程序,其中有一个 object 元素(包含一个 embed),用于显示小型文档。 文档可以是 PDF 或纯文本文件 (.txt),我以 base64 字符串的形式从 W
我有一种小型语言,它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展,但这并不重要)。为了简化事情,我有一个“转义”表达式,可以将 OCaml 文字传输到我的语言中(因此您可以将任意
据我所知,我知道 embed tag用于嵌入来自 youtube 等网站的视频,object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串,例如: Hello world! 它将显示在窗口内。 我的问题是,如果我将其压缩表示(JPEG 转储)加载到内存中,我该如
有没有一种可能的方式,我可以从youtube检索我的最新视频的列表(带有缩略图),使用cron作业将嵌入的代码存储在数据库中,这样我就可以在单独的页面上显示视频,而不是将用户引向youtube观看视频
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的,但单击时没有任何反应。 我正在使用 Youtube Javascript API 将视频
在 Keras 内置函数中嵌入使用哪种算法?Word2vec?手套?其他? https://keras.io/layers/embeddings/ 最佳答案 简短的回答是都不是。本质上,GloVe 的
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
在机器学习中,通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
我有一个使用 Storyboard的应用程序,我想在我的主视图中有一个 View ,并让它在场景中的不同 View 之间切换。 所以目前我有“容器对象”,我可以在其中嵌入另一个 viewControl
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
我正在尝试添加一个JFileChooser,它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法,但我不想创建新窗口。 这是我到目前为止所拥
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能? 最佳答案 显然这是默认的 WordPress 行为。此
我试图从 C 代码调用 python 函数,我遵循了 here 中的示例 我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
我有一个列表,其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是,当我尝试优化时,我的性能要么没有提高,要么只是停滞不前。 我将我的句子定义为一个简单的字符
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做?我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir
我在 html 文档中嵌入 highcharts 饼图时遇到问题。具体来说,我无法在不更改图表大小的情况下调整图表容器的大小。有谁知道您是否可以在不缩小图表的情况下减少默认填充?或者,您可以在不增加容
我不太确定这在 MediaWiki 中是否可行。 我有几个类别,每个类别包含几页。如果您打开一个类别页面,您将看到该类别的内容,通常由以下三个部分组成: 用户定义的文本(可以使用编辑链接进行编辑)。
我是一名优秀的程序员,十分优秀!