gpt4 book ai didi

java - 如何加快 OpenNLP 的模型创建过程

转载 作者:行者123 更新时间:2023-11-30 08:38:46 27 4
gpt4 key购买 nike

我正在使用 OpenNLP token 名称查找器来解析非结构化数据,我已经创建了 4MM 记录的语料库(训练集),但是当我在 Eclipse 中使用 OpenNLP API 从此语料库创建模型时,过程大约需要 3 hrs 这是非常耗时的。模型基于默认参数构建,即迭代 100 和截止值 5。

所以我的问题是,如何加快这个过程,如何减少构建模型过程所花费的时间。

语料库的大小可能是造成这种情况的原因,但只是想知道是否有人遇到过此类问题,如果是,那么如何解决这个问题。

请提供一些线索。

提前致谢!

最佳答案

通常处理此类问题的第一种方法是将训练数据分成几个 block ,并让每个 block 创建自己的模型。然后合并模型。我不确定这在这种情况下是否有效(我不是 OpenNLP 专家),下面还有另一个解决方案。另外,由于 OpenNLP API 似乎只提供单线程 train() 方法,因此我会提交一个请求多线程选项的问题。

对于缓慢的单线程操作,两个主要的减慢因素是 IO 和 CPU,两者都可以单独处理:

  • IO - 您使用哪个硬盘?普通(磁性)还是 SSD?迁移到 SSD 应该会有所帮助。
  • CPU - 您使用的是哪种 CPU?转向更快的 CPU 会有所帮助。不要关注核心数量,因为这里您需要的是原始速度。

您可能需要考虑从 Amazon Web 服务或 Google Compute Engine 获取高 CPU 服务器并在那里运行训练 - 之后您可以下载模型。两者都为您提供利用 Xeon(Sandy Bridge 或 Ivy Bridge)CPU 和本地 SSD 存储的高 CPU 服务器。

关于java - 如何加快 OpenNLP 的模型创建过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26987362/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com