python - Word2Vec:使用 Gensim 和 Google-News 数据集

python - Word2Vec:使用 Gensim 和 Google-News 数据集 - 执行时间非常慢

转载作者：行者123 更新时间：2023-12-02 03:10:57

25

4

代码是用Python编写的。我将二进制模型加载到 python 上的 gensim 中，并使用“init_sims”选项来加快执行速度。操作系统是OS X。加载大约需要 50-60 秒。以及查找“most_similar”的等效时间。这是正常的吗？在使用 init_sims 选项之前，几乎花费了两倍的时间!我感觉这可能是操作系统 RAM 分配问题。

model=Word2Vec.load_word2vec_format('GoogleNewsvectorsnegative300.bin',binary=True)
model.init_sims(replace=True)
model.save('SmallerFile')
#MODEL SAVED INTO SMALLERFILE & NEXT LOAD FROM IT
model=Word2Vec.load('SmallerFile',mmap='r')
#GIVE RESULT SER!
print model.most_similar(positive=['woman', 'king'], negative=['man'])

最佳答案

请注意，init_sims(replace=True) 的内存节省效果不会在保存/加载周期中持续存在，因为保存始终会保存“原始”向量(单位归一化向量中的原始向量)。向量可以重新计算)。因此，即使在重新加载之后，当您第一次调用 most_similar() 时，init_sims() 也会在幕后调用，并且内存使用量将翻倍。

而且，GoogleNews 数据集非常大，即使在单位标准化可能使内存使用量增加一倍之前也需要 3+ GB 来加载。因此，根据您正在运行的其他内容和机器的 RAM，您可能在运行 most_similar() 计算时使用交换内存 - 这对于“calculate-against-every”来说非常慢-向量和排序结果相似操作。 (不过，第一次之后的任何 most_similar() 检查都不需要重新填充单位标准化向量缓存，因此应该比第一次调用更快。)

鉴于您在 init_sims(replace=True) 之后保存了模型，其原始向量已经单位标准化。因此，您可以在 load() 之后手动修补模型以跳过重新计算:

model.syn0norm = model.syn0

然后，即使您的第一个 most_similar() 也只会查阅(单个、内存映射的)向量集，而不会触发 init_sims()。

如果仍然太慢，您可能需要更多内存或将向量修剪为子集。 GoogleNews 向量似乎被排序为最早放置最常见的单词，因此扔掉最后 10%、50%、甚至 90% 可能仍然会给您留下一组有用的最常见单词。 (您需要通过查看模型对象和源代码自行执行此修剪。)

最后，您可以使用最近邻居索引来获得更快的前 N 匹配，但代价是额外的内存和近似结果(可能会错过一些真正的前 N 匹配)。最近的 gensim 版本中有一个 IPython 笔记本教程:annoytutorial.ipynb gensim 中演示 IPython 笔记本的 IPython 笔记本 docs/notebooks目录。

关于python - Word2Vec:使用 Gensim 和 Google-News 数据集 - 执行时间非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39657215/

25

4

0

文章推荐： r - 输入密码后启动Shiny应用程序

文章推荐： delphi - 如何锁定和隐藏 FastReport 对象检查器？

文章推荐： pandas - 如何确保在 python pandas pd.cut 中获得零计数的标签

文章推荐： clojure - ^ :skip-aot mean in clojure project. clj 是什么意思

redirect -/news 和/news/是两个不同的页面吗？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 9 年前。 Improve this
apple-news - 向 Apple News 添加自定义字体
我有 .otf 和 .ttf 格式的字体。我想在我的 Apple News 文章中使用它，但我不断收到错误 Error: Custom font (postscript name=CustomFont
php - Codeigniter 网址，双段，如 : news/news/
我已经完成了 CI 文档中包含的众所周知的“新闻”教程。有时我的链接字符串中会出现双“新闻/”段，如下所示:“/codeig/news/news/entry”，有时在重新加载页面后一切正常。我应该提一
apple-news - 如何为 Apple News 应用指定 channel 图标/照片
Apple 似乎没有关于他们如何在 Apple News 中为您的 channel 提取主图像的文档。这个在这里: 我的网站上有 og:image 标签 + apple-touch-icon met
php - Facebook 开放图谱 : Issue between Old Facebook News Feed and New Facebook News Feed
旧版 Facebook News Feed 和新版之间是否存在问题？我的位置开放图集合的输出之间存在冲突。在旧的新闻提要中，我在使用 Open Graph 进行跨平台 checkin 时得到了这个
rubygems - Refinery CMS - 导航到 http://localhost:3000/news 后没有路由匹配 { :locale=>:en, :controller= >"refinery/news/items"}
我经历了安装refinerycms-news引擎的过程；我将 refinerycms-news 添加到我的 gemfile 中。 gem "refinerycms-news", '~> 2.0.0'
ruby-on-rails - 将 "news_path"用于 :news resource doesn't work with `No route matches {:action=>"show", :controller= >"admin/news"} 缺少必需的键:[:id]'
我正在实现一个管理子域，并且已经用谷歌搜索试图找到这个问题的答案，但是我还没有找到另一个实例。我的子域部分的路由如下所示: constraints :subdomain => 'admin' do
google-news - 测试谷歌新闻站点地图？
如何测试/验证我的 Google 新闻站点地图？如果我去搜索控制台，我可以选择添加/测试站点地图。但是它说我有一个无效的 XML 标签: 父标签:出版物标签:关键词但我可以看到这个标签是有效的，
ios - iOS分享扩展如何支持Apple News
在支持苹果新闻共享方面，请您能帮我一下，我的共享扩展名info.plist包含: NSExtension NSExtensionAttributes NSExte
rss - Apple News 使用什么来确定图像何时显示？
我们现在已经在 Apple News 上建立了多个网站。对于我们一半的网站(构建在一个平台上)，95% 的时间图像都显示在文章 ListView 中。我们网站的另一半在文章列表中显示图像的概率为 0%
ios - 如何实现像Yahoo的APP News Digest这样的倒计时功能
我可以使用CAShapeLayer和UIBezierPath画圆，也可以使用CAShapeLayer.strokeEnd这个属性来控制进度。但是路径和时间的快速滚动，我不知道如何实现。现在我认为方法
javascript - 反转元素的显示 News Feed
我想每小时从右到左保留元素 box1 的每个内部每隔 24 小时/一天，元素 box1、box2 和 box 3 将从底部向上.. .box { display: flex; flex-dir
php - 如何像facebook news feed一样在一个页面中显示多表数据
如何像facebook news feed一样在一个页面显示多表数据？示例表/事件、任务/ 我想按日期时间对它们进行排序，最新的在顶部。我可以通过 php 来完成，但我需要 mysql 方式。
javascript - News Ticker - 提前重启
我正在尝试让这个新闻自动收报机工作。出于某种原因，它将在第二个列表项之后重新启动，这不是我想要的 - 我希望它在列表项中循环直到最后。这个脚本有什么问题？这是一个 JSFiddle HTML Thi
php - 在网站上创建自动旋转 "news"提要的最佳方式？
我的客户要求在他们的网站上提供自动旋转的新闻提要类型的东西。内容不会改变，但会自动从一个元素移动到下一个。它还将允许用户将鼠标悬停在之前的元素上并将它们保持在原位。您在 Yahoo 主页上找到的内容
javascript - 有没有更高效的方法来调用Hacker News API？
我正在尝试使用official API找到每个黑客新闻用户的业力(点) 。我是编程新手。以下是我为获取某个特定用户的业力而编写的代码片段。 HN 上有近 30 万个用户帐户。 var request
安卓: "News and Weather"应用标签
有谁知道如何构建“新闻和天气”应用程序使用的那种标签？ see here http://img51.imageshack.us/img51/8788/tabsd.png 这意味着可以向左和向右滚动的选
html - 如何使用微数据标记 "Related News"？
一篇新闻文章就像 Awesome News bla bla bla... 如果我想包含相关新闻并对其进行标记怎么办？ Related News 1
PHP News Feed 数据库和设计
我正在使用类似于 facebook 的 PHP/MySQL 设计一个新闻提要系统。我之前也问过类似的问题，但现在我改变了设计，我正在寻找反馈。示例新闻: User_A commented on U
帝国CMS 刷新数据表:news 比较卡的解决方法
这个BUG让我真的很无语：第一次遇到过，在更新内容数据时出现过，后来解决了，但没记录下来是如何解决的。这次又遇到了。主要原因可能是： 1、更新数据库缓存、临时文件缓存等。这些一堆垃圾

首页

博学

6Ren·AI

商城

python - Word2Vec:使用 Gensim 和 Google-News 数据集 - 执行时间非常慢