- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
代码是用Python编写的。我将二进制模型加载到 python 上的 gensim 中,并使用“init_sims”选项来加快执行速度。操作系统是OS X。加载大约需要 50-60 秒。以及查找“most_similar”的等效时间。这是正常的吗?在使用 init_sims 选项之前,几乎花费了两倍的时间!我感觉这可能是操作系统 RAM 分配问题。
model=Word2Vec.load_word2vec_format('GoogleNewsvectorsnegative300.bin',binary=True)
model.init_sims(replace=True)
model.save('SmallerFile')
#MODEL SAVED INTO SMALLERFILE & NEXT LOAD FROM IT
model=Word2Vec.load('SmallerFile',mmap='r')
#GIVE RESULT SER!
print model.most_similar(positive=['woman', 'king'], negative=['man'])
最佳答案
请注意,init_sims(replace=True)
的内存节省效果不会在保存/加载周期中持续存在,因为保存始终会保存“原始”向量(单位归一化向量中的原始向量)。向量可以重新计算)。因此,即使在重新加载之后,当您第一次调用 most_similar()
时,init_sims()
也会在幕后调用,并且内存使用量将翻倍。
而且,GoogleNews 数据集非常大,即使在单位标准化可能使内存使用量增加一倍之前也需要 3+ GB 来加载。因此,根据您正在运行的其他内容和机器的 RAM,您可能在运行 most_similar()
计算时使用交换内存 - 这对于“calculate-against-every”来说非常慢-向量和排序结果相似操作。 (不过,第一次之后的任何 most_similar()
检查都不需要重新填充单位标准化向量缓存,因此应该比第一次调用更快。)
鉴于您在 init_sims(replace=True)
之后保存了模型,其原始向量已经单位标准化。因此,您可以在 load()
之后手动修补模型以跳过重新计算:
model.syn0norm = model.syn0
然后,即使您的第一个 most_similar()
也只会查阅(单个、内存映射的)向量集,而不会触发 init_sims()
。
如果仍然太慢,您可能需要更多内存或将向量修剪为子集。 GoogleNews 向量似乎被排序为最早放置最常见的单词,因此扔掉最后 10%、50%、甚至 90% 可能仍然会给您留下一组有用的最常见单词。 (您需要通过查看模型对象和源代码自行执行此修剪。)
最后,您可以使用最近邻居索引来获得更快的前 N 匹配,但代价是额外的内存和近似结果(可能会错过一些真正的前 N 匹配)。最近的 gensim 版本中有一个 IPython 笔记本教程:annoytutorial.ipynb gensim 中演示 IPython 笔记本的 IPython 笔记本 docs/notebooks
目录。
关于python - Word2Vec:使用 Gensim 和 Google-News 数据集 - 执行时间非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39657215/
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
我有 .otf 和 .ttf 格式的字体。我想在我的 Apple News 文章中使用它,但我不断收到错误 Error: Custom font (postscript name=CustomFont
我已经完成了 CI 文档中包含的众所周知的“新闻”教程。有时我的链接字符串中会出现双“新闻/”段,如下所示:“/codeig/news/news/entry”,有时在重新加载页面后一切正常。我应该提一
Apple 似乎没有关于他们如何在 Apple News 中为您的 channel 提取主图像的文档。 这个在这里: 我的网站上有 og:image 标签 + apple-touch-icon met
旧版 Facebook News Feed 和新版之间是否存在问题? 我的位置开放图集合的输出之间存在冲突。 在旧的新闻提要中,我在使用 Open Graph 进行跨平台 checkin 时得到了这个
我经历了安装refinerycms-news引擎的过程; 我将 refinerycms-news 添加到我的 gemfile 中。 gem "refinerycms-news", '~> 2.0.0'
我正在实现一个管理子域,并且已经用谷歌搜索试图找到这个问题的答案,但是我还没有找到另一个实例。 我的子域部分的路由如下所示: constraints :subdomain => 'admin' do
如何测试/验证我的 Google 新闻站点地图? 如果我去搜索控制台,我可以选择添加/测试站点地图。但是它说我有一个无效的 XML 标签: 父标签:出版物 标签:关键词 但我可以看到这个标签是有效的,
在支持苹果新闻共享方面,请您能帮我一下, 我的共享扩展名info.plist包含: NSExtension NSExtensionAttributes NSExte
我们现在已经在 Apple News 上建立了多个网站。对于我们一半的网站(构建在一个平台上),95% 的时间图像都显示在文章 ListView 中。我们网站的另一半在文章列表中显示图像的概率为 0%
我可以使用CAShapeLayer和UIBezierPath画圆,也可以使用CAShapeLayer.strokeEnd这个属性来控制进度。但是路径和时间的快速滚动,我不知道如何实现。 现在我认为方法
我想每小时从右到左保留元素 box1 的每个内部每隔 24 小时/一天,元素 box1、box2 和 box 3 将从底部向上.. .box { display: flex; flex-dir
如何像facebook news feed一样在一个页面显示多表数据? 示例表/事件、任务/ 我想按日期时间对它们进行排序,最新的在顶部。我可以通过 php 来完成,但我需要 mysql 方式。
我正在尝试让这个新闻自动收报机工作。出于某种原因,它将在第二个列表项之后重新启动,这不是我想要的 - 我希望它在列表项中循环直到最后。这个脚本有什么问题? 这是一个 JSFiddle HTML Thi
我的客户要求在他们的网站上提供自动旋转的新闻提要类型的东西。内容不会改变,但会自动从一个元素移动到下一个。它还将允许用户将鼠标悬停在之前的元素上并将它们保持在原位。 您在 Yahoo 主页上找到的内容
我正在尝试使用official API找到每个黑客新闻用户的业力(点) 。我是编程新手。 以下是我为获取某个特定用户的业力而编写的代码片段。 HN 上有近 30 万个用户帐户。 var request
有谁知道如何构建“新闻和天气”应用程序使用的那种标签? see here http://img51.imageshack.us/img51/8788/tabsd.png 这意味着可以向左和向右滚动的选
一篇新闻文章就像 Awesome News bla bla bla... 如果我想包含相关新闻并对其进行标记怎么办? Related News 1
我正在使用类似于 facebook 的 PHP/MySQL 设计一个新闻提要系统。 我之前也问过类似的问题,但现在我改变了设计,我正在寻找反馈。 示例新闻: User_A commented on U
这个BUG让我真的很无语: 第一次遇到过,在更新 内容数据时出现过,后来解决了,但没记录下来是如何解决的。 这次又遇到了。 主要原因可能是: 1、更新数据库缓存、临时文件缓存等。这些一堆垃圾
我是一名优秀的程序员,十分优秀!