gpt4 book ai didi

nlp - 识别句子中单词的上下文

转载 作者:行者123 更新时间:2023-12-01 14:23:54 24 4
gpt4 key购买 nike

我创建了分类器来对给定句子中的名词、形容词、命名实体进行分类。我使用大型维基百科数据集进行分类。

喜欢 :

亚伯拉罕·林肯出生在哪里?

所以分类器会给出这个结果 - word - class

  • 哪里 - 问题
  • Abraham Lincoln - 人物、电影、书籍(因为分类器可以在所有类别中找到亚伯拉罕林肯)
  • 出生时间

  • 泰坦尼克号什么时候上映?
  • 何时 - 问题
  • 泰坦尼克号 - 歌曲、电影、车辆、游戏(泰坦尼克号
    归入所有这些类别)

  • 有没有办法确定单词的确切上下文?

    请参见 :
  • 词义消歧在这里无济于事。因为句子中可能没有近的词可以帮助
  • 带有 wordnet 或 sysnet 的 Lesk 算法也无济于事。因为它为假设词Bank lesk 算法会像这样

    ======== 测试 simple_lesk ==========

    测试 simple_lesk() ...

    背景:我去银行存钱

    意义:Synset('depository_financial_institution.n.01')

    定义:接受存款并将资金用于借贷事件的金融机构

    使用 POS 测试 simple_lesk() ...

    背景:河岸上满是死鱼

    意义:Synset('bank.n.01')

    定义:坡地(尤其是水体旁边的斜坡)

  • 这里是字 bank它建议为 financial instituteslopping land .而在我的情况下,我已经得到了这样的预测 Titanic那么它可以是 moviegame .

    我想知道除了 Lesk algo 之外还有其他方法吗? , baseline algo , traditional word sense disambiguation这可以帮助我确定哪个类对特定关键字是正确的?

    泰坦尼克号——

    最佳答案

    感谢您使用 pywsd examples .关于 wsd,还有许多其他变体,我在空闲时间自己编码。因此,如果您想看到它的改进,请与我一起编写开源工具的代码 =)

    同时,您会发现以下技术与您的任务更相关,例如:

  • 知识库人口 ( http://www.nist.gov/tac/2014/KBP/ ) 其中标记/文本段被分配一个实体,任务是链接它们或解决简化的问答任务。
  • 知识表示 ( http://groups.csail.mit.edu/medg/ftp/psz/k-rep.html )
  • 知识抽取 ( https://en.wikipedia.org/wiki/Knowledge_extraction )

  • 上述技术通常包括几个子任务,例如:
  • 维基化 ( http://nlp.cs.rpi.edu/kbp/2014/elreading.html )
  • 实体链接
  • 插槽填充 ( http://surdeanu.info/kbp2014/def.php )

  • 本质上,您需要一种工具,它是用于语言/文本处理的 NP 完全 AI 系统,所以我认为目前还没有这样的工具。也许是 IBM Watson。

    如果您正在寻找要研究的领域,该领域就在那里,但如果您正在寻找工具,则很可能维基化工具最接近您可能需要的东西。 ( http://nlp.cs.rpi.edu/paper/WikificationProposal.pdf )

    关于nlp - 识别句子中单词的上下文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26932797/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com