gpt4 book ai didi

nlp - 斯坦福 CoreNLP 命名实体识别如何捕获 5 英寸、5 英寸、5 英寸、5 英寸等测量值

转载 作者:行者123 更新时间:2023-12-04 11:35:50 29 4
gpt4 key购买 nike

我希望使用 Stanford CoreNLP 捕获测量值. (如果你能建议一个不同的提取器,那也很好。)

比如我想找 15公斤 , 15 公斤 , 15.0 公斤 , 15公斤 , 15 磅 , 15 磅 等。但在 CoreNLPs 提取规则中,我没有看到用于测量的规则。

当然,我可以使用纯正则表达式来做到这一点,但是工具包可以运行得更快,并且它们提供了在更高级别进行分块的机会,例如治疗国标千兆字节 一起,和内存 内存作为构建块——即使没有完整的语法解析——因为它们构建了更大的单元,如 128 GB 内存 8 GB 内存 .

我想要一个基于规则的提取器,而不是基于机器学习的),但不要将其视为 RegexNer 的一部分或其他地方。我该怎么做?

IBM Named Entity Extraction可以做到这一点。正则表达式以一种有效的方式运行,而不是通过每个文本传递文本。并且正则表达式被捆绑以表达有意义的实体,例如将所有度量单位统一为一个概念的实体。

最佳答案

我认为不存在针对此特定任务的基于规则的系统。但是,使用 TokensregexNER 应该不难。例如,像这样的映射:

[{ner:NUMBER}]+ /(k|m|g|t)b/ memory?   MEMORY
[{ner:NUMBER}]+ /"|''|in(ches)?/ LENGTH
...

您也可以尝试使用 vanilla TokensRegex,然后使用捕获组提取相关值:
(?$group_name [{ner:NUMBER}]+) /(k|m|g|t)b/ memory?

关于nlp - 斯坦福 CoreNLP 命名实体识别如何捕获 5 英寸、5 英寸、5 英寸、5 英寸等测量值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34252170/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com