gpt4 book ai didi

regex - 非结构化文本的Key-Value抽取方式有哪些?

转载 作者:行者123 更新时间:2023-12-05 05:10:44 25 4
gpt4 key购买 nike

我试图弄清楚在非结构化文本中为预定义键提取值的方法是什么(以及哪种方法最好)?

输入:

  1. 医生给我开了一种叫 favipiravir 的药。
  2. 他叫尤里。
  3. Ilya 已经告诉我了。
  4. 今天天气很冷。
  5. 我正在服用一种叫做 nazivin 的药。

键列表:['drug', 'name', 'weather']

输出:

['drug=favipiravir', 'drug=nazivin', 'name=Yury', 'weather=cold']

因此,如您所见,在 3d 句子中没有明确的键“名称”,因此没有提取值(我认为这与 NER 不同)。同时,'drug'和'medicine'是同义词,我们应该把'medicine'当成'drug'的key,同时提取值。

下一个问题,如果键集是可变的怎么办?由于预定义的键,我应该使用基本正则表达式方法还是有一种方法可以通过监督学习/NN 来实现它? (但在这种情况下如何处理可变键?)

最佳答案

您可以使用解析器来标记单词。您的问题类似于命名实体识别 (NER)。许多库(如 Python 中的 NLTK)都提供词性标注器。你可以试试那些。他们通常接受过识别名称、位置等的训练。根据您需要的单词类型,您可能需要训练解析器。所以你还需要一些带标签的数据。
查看此链接:https://nlp.stanford.edu/software/CRF-NER.html

关于regex - 非结构化文本的Key-Value抽取方式有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56390971/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com