gpt4 book ai didi

parsing - 自然语言处理项目的想法?

转载 作者:行者123 更新时间:2023-12-03 14:01:10 27 4
gpt4 key购买 nike

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center寻求指导。




9年前关闭。




我必须为我的计算语言学课做一个期末项目。我们一直在使用 OCaml,但我也熟悉 Java。我们研究了形态学、FSM、收集解析树、CYK 解析、尝试、下推自动机、正则表达式、形式语言理论、一些语义等。

以下是我提出的一些想法。你有什么你认为很酷的东西吗?

  • 一个脚本,用于扫描 Facebook 线程中的讨厌* 评论并用 JS 静默隐藏它们(显然,这将在用户同意的情况下运行)
  • 使用语义、语法、标点符号使用和其他指标对一篇文章进行分析,以尝试“指纹”作者。它可用于确定两部作品是否可能由同一作者撰写。或者,有人可以放入一堆他随着时间的推移完成的作品,并了解他的风格是如何变化的。
  • 聊天机器人(不那么有趣/原创)

  • 我可能被允许使用预先存在的库来执行此操作。 OCaml 是否存在?如果没有库/工具包,上述三个想法可能是不可行的,除非我将其限制在一个非常具体的领域。

    低层次的想法:
  • 有限状态机上的操作 - 最小化、组合换能器,证明 FSM 处于最小可能状态。我对图论非常感兴趣,因此与 FSM 的任何重叠都可能是一个很好的探索场所。 (我还能用 FSM 做什么?)
  • 正则表达式很酷吗?
  • CYK 很酷吗?

  • 还有其他人有什么很酷的想法吗?

    *令人讨厌的定义为具有以下某些典型的初中生模式。这个术语的模糊性不是问题。我可以定义我想要的任何东西并以此为目标。

    最佳答案

  • 讨厌的语言过滤 - 我认为这将简化为与垃圾邮件过滤非常相似的过程。也就是说,计算一组或多或少“令人讨厌”的词的频率。除非您还使用其他信息源(例如,发送者和接收者之间共享的社交链接的结构,也许),否则您听起来似乎不会做任何特别聪明的事情。另一方面,在线欺凌是一件非常严重的事情,你可以打赌 Facebook/Myspace 和其他社交网站非常关心解决它。
  • 文体分析 - 已经以各种形式对此进行了一些工作,通常以作者身份分析的名义进行。 Shlomo Argamon在这方面做了很多工作,你可能会从他论文中的引用文献中发现更多。描述作者的最佳方法之一是了解他们对一组停用词(也称为功能词)的使用分布,例如“and”、“but”、“if”等。我认为还有更多在这个领域做一些新的和有趣的事情的空间——对互联网数据的作者身份分析是一个难题——但也有更多的失败空间。
  • 聊天机器人 - 你是对的,这是一个非常标准的项目。衡量成功/失败也非常困难。我认为如果这个项目是一个有某种目的的聊天机器人,比如在有限的领域回答问题,那么这个项目会更引人注目,但这是很难做好的事情。

  • 其余的实在是太模糊了,无法发表任何评论,抱歉。
    我所知道的 OCaml 中没有任何 NLP 库,它只是不是一种特别流行的编程语言。但是,我确实知道 Ocaml 中有一个机器学习库,称为 MEGAM。 ,由非常优秀的 NLP 研究员 Hal Daume 编写,已经用于 NLP 任务。然而,我觉得弄清楚 MEGAM 并用它来完成一些 NLP 任务可能是一个太大的项目,无法承担。
    其他一些想法:
  • Sentiment Analysis - 一个非常流行的研究领域。您可以根据自己的喜好使这项任务变得简单或困难,从将文档评分为正面/负面到提取特定主题并为每个主题生成情绪得分。
  • Coreference/Anaphora resolution - 一项艰巨但非常重要的任务。一些方法使用图表示(每个提及都是一个节点,如果它们共同引用,则它们之间有边)来强制执行诸如传递性之类的事情。
  • Document Classification - 您可以尝试在 StackOverflow data set 上学习系统建议给定问题的标签。对于一些已建立的技术来说,这是一个众所周知的问题,但它是一个有趣的数据集,并且在现实世界中具有明显和有用的应用。您还可以查看是否可以找到问题的特定特征(单词选择、长度、格式、标点符号等),这些特征会导致它们获得高票。
  • Haiku Generation - 有点傻,但我一直认为这是一个有趣的想法。音节计数可以使用 CMU pronouncing dictionary .如果不是特别有用的话,应该会很有趣。
  • 关于parsing - 自然语言处理项目的想法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1793516/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com