gpt4 book ai didi

nlp - 除了 RegEx 之外的其他技术在句子中发现 'intent'

转载 作者:行者123 更新时间:2023-12-01 01:55:57 25 4
gpt4 key购买 nike

我正在为一个非营利组织开展一个项目,以帮助处理和分类每年来自世界各地的现场工作人员/承包商的 1000 份报告。我对 NLP 比较陌生,因此想就解决我们问题的方法寻求小组的指导。

我将重点介绍当前流程和我们面临的挑战,并希望您能以最佳方式解决我们的问题。

当前进程:现场官员以最佳做法的形式提交本地运行的项目的报告。然后,这些报告由全职策展人团队处理,他们 (i) 确保他们遵守最佳实践模板,以及 (ii) 编辑文档以改进语言/风格/语法。

挑战:随着现场工作人员数量的增加,生成的报告量也在增加,我们的编辑现在成为瓶颈。

解决方案:我们希望自动化流程的第一步,即检查文档是否符合组织最佳实践模板

基本上,我们需要确保每个报告都有 3 个组成部分,即:
1. 说明其目的:此最佳实践解决什么主题/问题?
2. 识别受众:这是给谁的?
3. 亮点相关性:读者阅读后能做什么?

这是一个很好的报告提交示例。

“本文件介绍了在发展中国家成功应用最佳做法的技术。这项研究旨在帮助低收入农民确定一套在价格不透明的地方为农产品定价的最佳做法。通过实现这些流程,农民将能够为他们的产品获得更好的价格并提高他们的家庭收入。”

到目前为止,我们的方法是使用 RegEx 并检查关键字。即,为了检查合规性,我们使用以下逻辑:
1 检查“状态目的”=我们做一个正则表达式来匹配“目的”、“意图”
2 检查“识别受众”=我们做一个正则表达式来匹配“识别”,“是为”
3 检查“突出显示相关性”=我们做一个正则表达式来匹配“能够”、“允许”、“启用”

目前 RegEx 的方法似乎非常原始和有限,所以我想问问社区是否有更好的方法来使用 NLTK、CoreNLP 之类的东西来解决这个问题。

提前致谢。

最佳答案

有趣的问题,我相信这是一个彻底的研究问题!在自然语言处理中,很少有技术可以从文本中学习和提取模板,然后将它们作为黄金注释来识别文档是否遵循模板结构。研究人员使用这种系统进行自动问答(从问题中提取模板然后回答它们)。但是在您的情况下,它更困难,因为您需要从报告中学习结构。鉴于自然语言处理,这更难解决您的问题(没有简单的 NLP 任务与您的问题定义匹配),并且您可能不需要任何花哨的模型(复杂)来解决您的问题。

您可以从简单的文档匹配和计算相似度分数开始。如果您有大量正面示例(格式良好且指定的报告),则可以基于 tf-idf 权重构建字典。然后您可以检查字典标记的存在。您也可以将此问题视为二元分类问题。有很好的机器学习分类器,例如 svm、逻辑回归,它们适用于文本数据。您可以使用 python 和 scikit-learn 快速构建程序,它们非常易于使用。对于文本预处理,您可以使用 NLTK。

由于报告将由现场工作人员生成,并且报告将回答的问题很少(您提到了 3 个特定组件),我想简单的关键字匹配技术将是您研究的良好开端。您可以根据您的观察逐渐移动到不同的方向。

关于nlp - 除了 RegEx 之外的其他技术在句子中发现 'intent',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40667782/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com