gpt4 book ai didi

nlp - 如何确定一段文字是否提到了一个产品

转载 作者:行者123 更新时间:2023-12-04 13:41:31 26 4
gpt4 key购买 nike

我是自然语言处理的新手,所以如果我的问题不清楚,我深表歉意。我已经阅读了一两本关于这个主题的书,并对各种图书馆进行了一般研究,以弄清楚我应该如何做,但我还没有信心知道该怎么做。

我正在考虑一个应用程序的想法,其中一部分是尝试在非结构化文本(例如推文、Facebook 帖子、电子邮件、网站等)中实时查找产品提及。我不会详细介绍产品是什么,但可以假设它们是已知的(存储在文件或数据库中)。一些例子:

  • “从明天开始,我们有 5 盒 @hersheys 士力架,每盒 5 美元 - 限制 1 pp”(士力架是好时公司的产品 [称为“@hersheys”])
  • “大新闻:从周五开始发售 12 盎司瓶装可乐和百事可乐。” (可口可乐是可口可乐公司的产品[别名为“可乐”,百事可乐是百事可乐公司的产品)
  • “#OMG,我刚买了我梦想中的车。野马!!!!” (野马是福特的产品)

  • 所以基本上,给定一段文本,查询文本以查看它是否提到了一个产品,并收到一些指示( bool 值或置信度数),它确实提到了该产品。

    我的一些担忧是:
  • 由于拼写错误而缺少产品。我想也许我可以使用字符串相似性检查来捕获这些。
  • 也是英文单词或事物的产品名称会被捕获。就像野马马和野马汽车
  • 需要保留产品的替代名称列表(例如“coco-cola”的“coke”等)

  • 我真的不知道从哪里开始,但任何帮助将不胜感激。我已经看过 NLTK 和 SciKit,但并没有真正了解如何从那里做到这一点。如果您知道解释这一点的示例或论文,链接会有所帮助。在这一点上,我不特定于任何语言。 Java 最好,但 Python 和 Scala 是可以接受的。

    最佳答案

    您选择的答案并没有真正回答您的问题。

    您可以采取的最佳方法是使用命名实体识别器(NER)和词性标注器(抓取 NNP/NNPS;专有名词)。那里的数据库可能缺少一些像 Lyft(优步的竞争对手)这样的新品牌,但无需开发自己的 Prop 数据库,Stanford tagger 将解决您一半的直接需求。

    如果你有时间,我会构建一个包含每个品牌名称的字典,并简单地从推文字符串中提取它。
    http://www.namedevelopment.com/brand-names.html
    如果你知道如何爬行,这不是一个很难解决的问题。

    关于nlp - 如何确定一段文字是否提到了一个产品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30629439/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com