python - 如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？-6ren

python - 如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？

转载作者：太空宇宙更新时间：2023-11-04 08:38:56

25

4

我有一个 DataFrame，其中索引是单词，我有 100 列 float ，这样对于每个单词，我都将其嵌入为 100d 向量。我想将我的 DataFrame 对象转换为 gensim model object这样我就可以使用它的方法；特别是 gensim.models.keyedvectors.most_similar() 这样我就可以在我的子集中搜索相似的词。

这样做的首选方式是什么？

谢谢

最佳答案

不确定这样做的“首选”方式是什么，但是 gensim 期望的格式很容易复制:

data = pd.DataFrame([[0.15941701, 0.84058299],
                     [0.12190033, 0.87809967],
                     [0.06293788, 0.93706212]],
                    index=["these", "be", "words"])

np.savetxt('test.txt', data.reset_index().values, 
           delimiter=" ", 
           header="{} {}".format(len(data), len(data.columns)),
           comments="",
           fmt=["%s"] + ["%.18e"]*len(data.columns))

header是2个空格分隔的整数，词汇表中的词数和词向量的长度。每行的第一列是单词本身。其余列是词向量的元素。 fmt 的奇怪之处在于将第一个元素格式化为字符串，其余元素格式化为 float 。

然后可以将其加载到 gensim 中并执行任何操作:

import gensim

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('test.txt', binary=False)

word_vectors.similarity('these', 'words')

关于python - 如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46297740/

25

4

0

文章推荐： python - plotly 无法导入名称异常

文章推荐： java - Hibernate映射异构继承对象的映射

文章推荐： java - 检查 url 是否有效时出现错误

文章推荐： css - sap.m.FormattedText 在 sap.m.CustomTile 中不起作用

html - 样式对象的内容/嵌入
我正在开发一个小型 Web 应用程序，其中有一个 object 元素(包含一个 embed)，用于显示小型文档。文档可以是 PDF 或纯文本文件 (.txt)，我以 base64 字符串的形式从 W
嵌入 ocaml 解释器
我有一种小型语言，它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展，但这并不重要)。为了简化事情，我有一个“转义”表达式，可以将 OCaml 文字传输到我的语言中(因此您可以将任意
flash - 嵌入、对象和视频标签之间的区别？
据我所知，我知道 embed tag用于嵌入来自 youtube 等网站的视频，object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
WebKit、嵌入、动态资源
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串，例如: Hello world! 它将显示在窗口内。我的问题是，如果我将其压缩表示(JPEG 转储)加载到内存中，我该如
php - YouTube取回/嵌入
有没有一种可能的方式，我可以从youtube检索我的最新视频的列表(带有缩略图)，使用cron作业将嵌入的代码存储在数据库中，这样我就可以在单独的页面上显示视频，而不是将用户引向youtube观看视频
youtube 嵌入 - 全屏按钮不起作用
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的，但单击时没有任何反应。我正在使用 Youtube Javascript API 将视频
keras - 嵌入 Keras
在 Keras 内置函数中嵌入使用哪种算法？Word2vec？手套？其他？ https://keras.io/layers/embeddings/ 最佳答案简短的回答是都不是。本质上，GloVe 的
Keras:嵌入 LSTM
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
用于分类特征的 TensorFlow 嵌入
在机器学习中，通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
iOS 嵌入 View
我有一个使用 Storyboard的应用程序，我想在我的主视图中有一个 View ，并让它在场景中的不同 View 之间切换。所以目前我有“容器对象”，我可以在其中嵌入另一个 viewControl
PHP 嵌入 JavaScript
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
java - 嵌入 JFileChooser
我正在尝试添加一个JFileChooser，它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法，但我不想创建新窗口。这是我到目前为止所拥
WordPress/嵌入/链接
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能？最佳答案显然这是默认的 WordPress 行为。此
python - 嵌入 python
我试图从 C 代码调用 python 函数，我遵循了 here 中的示例我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
powershell - msiexec.exe - 嵌入
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
python - 并行运行 Flair 嵌入
我有一个列表，其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是，当我尝试优化时，我的性能要么没有提高，要么只是停滞不前。我将我的句子定义为一个简单的字符
嵌入 Flutter YouTube 视频
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做？我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
json.net SelectToken 嵌入 "."
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir
highcharts - 嵌入 Highcharts 时如何减少填充？
我在 html 文档中嵌入 highcharts 饼图时遇到问题。具体来说，我无法在不更改图表大小的情况下调整图表容器的大小。有谁知道您是否可以在不缩小图表的情况下减少默认填充？或者，您可以在不增加容
mediawiki - 嵌入 MediaWiki 中的类别
我不太确定这在 MediaWiki 中是否可行。我有几个类别，每个类别包含几页。如果您打开一个类别页面，您将看到该类别的内容，通常由以下三个部分组成: 用户定义的文本(可以使用编辑链接进行编辑)。

首页

博学

6Ren·AI

商城

python - 如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？