- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这是我的 previous question 的跟进.正如 Tim Peters 所建议的那样,使用 Manager
可能不一定是最好的方法。不幸的是,我有太多脚手架代码无法发布 SSCCE .相反,我将尝试提供对我的问题的详细解释。请随时在 Github 上浏览整个代码库。 , 但现在有点乱。
我正在研究自然语言处理,我想为文档分类做(类似的)基于字典的平滑处理。训练分类器将单词和短语与正确答案相关联的想法。例如,包含单词 socialist
的文档可能与政治有关,而包含短语 lava temperature
的文档可能与地质学有关。该系统通过查看少量预先标记的示例进行训练。因为语言是如此多样,分类器永远不会“知道”它在生产中可能遇到的所有可能的短语。
这就是字典的用武之地。假设我们有 a cheap and easy way获得几乎所有短语的同义词(我会引用自己,因为它的品味很差)。当可怜的分类器遇到它不知道的短语时,我们可以在所述字典中查找它并告诉分类器“看,你不知道共产主义
,但它有点像socialist
,你知道的!”。如果字典合理,分类器通常会表现更好。
data = Load training and testing documents (300MB on disk)
dictionary = Load dictionary (200MB - 2GB on disk) and place into a `dict` for fast look-ups
Repeat 25 times:
do_work(data, dictionary)
def do_work(data, dictionary)
X = Select a random sample of data
Train a classifier on X
Y = Select a random sample of data
Using dictionary, classify all documents in Y
Write results to disk
上面的循环是并行化的完美候选者。我一直在使用 Python 2.7 multiprocessing.Pool
(通过 joblib.Parallel
,因为它很简单,并且在事情进展顺利时提供非常有用的回溯)。所有工作进程都需要对字典和文档集合进行只读访问。 worker 无需相互通信或与父进程通信 - 他们所做的只是生成、施展魔法、写入文件然后死去。
字典需要支持快速随机访问。我不知道示例 Y
将包含哪些文档,因此我无法轻松地修剪字典并仅将其中需要的部分传递给每个工作人员。字典将经常被查询——典型的每次运行命中数以百万计。目前我的代码是内存绑定(bind)的,因为(我相信)正在为每个工作进程制作文档集合和字典的副本。解析 data
和 dictionary
通常会占用几 GB 的 RAM。我已经尝试使用 multiprocessing.managers.BaseManager
来避免复制大对象,但这会减慢工作人员的速度。
还有哪些其他替代方法可以加快速度?我考虑过的事情包括:
sqlite
数据库和数据库连接不能跨进程共享,因此每个工作人员都需要自己连接到磁盘上的数据库。这意味着随着每个 worker 缓存的增长,一开始会有大量的 I/O 和高内存使用。 This SO question还建议许多看起来需要对 dict
进行只读访问的现实世界问题可能会触发 fork()
的写时复制,因此它可能不可能完全避免复制大型对象。
最佳答案
您所描述的场景,在使用多线程时,您很可能会因为 GIL 而遇到较大的性能问题。可能是为了避免您选择使用多处理。另一方面,它使用进程,因此可能会为每个子进程复制数据结构。
我不想这么说,但使用非 Python 解决方案(例如在 C++ 中)可能会加快速度,因为你没有 GIL 问题。然后你可以使用多线程,不必复制东西等。从多个线程读取大型字典并不是真正的问题,所以你不必同步任何东西(GIL总是会为你做的事情没有真正需要)。
关于python - 在高性能环境中的 fork 工作进程之间共享状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20971191/
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET,但 win32 native 可以)? 我想做的是创建类似 awstats 的东西对于 Windows 共享,这样我
是否可以列出 Intent.ACTION_SEND ?我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。 最佳答案 也许你想要一个更
我正在使用 Google Apps 应用程序。实际上,我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth,它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
我怎样才能只创建模拟器...可能吗?我知道,设备需要分发证书。 最佳答案 您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本,它就应该可以工作。 因此,如果您想分发 3.1.3
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。 我正在考虑在第一阶段解决 Maven 依赖项,然后在第二阶段构建应用程序,这将需要访问在前一阶段下
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件,这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat,并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。 我看过类似的帖子,
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针?` 为什么这不起作用?自动测试 = Singleton::Instance(); class Singleton { public: st
我有一个 heroku 项目,我想与其他人分享。作为the instructions describe ,我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。 那么,是否可以由多个用户共享这个本地存储库,或许在不同的目录结构下? 最佳答案 简单的回答
为什么共享 worker 在重新加载页面时死了?应该是复活了我该如何解决这个问题? 重装前 重新加载后(在example.com上按F5) parent worker var port = new S
我正在开发多个小型应用程序,这些应用程序将共享通用和共享模块和 Assets 。 关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
我在 RHEL 上安装了 jenkins (localhost:8080),我能够成功地构建代码 现在,我想设置主/从代理。 我的笔记本电脑将充当“Master Jenkins”,而我同事的笔记本电脑
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
我正在使用 R 中的一个数据分析项目,我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了 。预订 包,我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
我有多个应用程序,我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
我有多个 Electron 应用程序。一个是主应用程序,其他几个功能应用程序。主应用程序上的按钮很少,这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程,该进程导致要利用更多的CPU。是
我正在开发一个 Node.js 后端,它通过 websocket 与一些桌面客户端进行通信,而服务器端的通信是从 Web 前端发起的。一切正常,因为我将 SockJS Connection 实例存储在
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。 我为每个用户帐户使用相同的私钥。 (因为我很懒?或者那是“正确”的方式)。 我现在想授权该国不同地区
我是一名优秀的程序员,十分优秀!