gpt4 book ai didi

nlp:替代拼写识别

转载 作者:行者123 更新时间:2023-12-04 04:57:04 24 4
gpt4 key购买 nike

非常感谢编辑我的问题标题和标签的帮助!

有时,我的“对话”语料库中的一位参与者会使用昵称(通常是缩写或拼写错误)来指代另一位参与者,但此后我只会说“昵称”。假设我愿意手动告诉我的软件我是否认为各种可能的昵称实际上是昵称,但我希望软件提供识别人的句柄和潜在昵称之间可能匹配的列表。我该怎么做?

关于我和我的语料库的背景:我没有进行自然语言处理的经验,但我是 R 的称职数据分析师。我的数据由 70 个团队生成,每个团队预测 100 个不同事件在 future 某个时间发生的可能性。结果我有 70 x 100 = 7000 个文本文件,其中包含参与者所做的预测流以及他们在预测中包含的评论。我将在下面粘贴其中一个文本文件的一小段,这与马里政府是否会与 MNLA 进行谈判有关:

02/12/2013 20:10: past_returns answered Yes: (50%)

I hadn't done a lot of research when I put in my previous placeholder... I'm bumping up a lot due to DougL's forecast

02/12/2013 19:31: DougL answered Yes: (60%)

Weak President Traore wants talks if MNLA drops territorial claims. Mali's military may not want talks. France wants talks. MNLA sugggests it just needs autonomy. But in 7 weeks?

02/12/2013 10:59: past_returns answered No: (75%)

placeholder forecast... http://www.irinnews.org/Report/97456/What-s-the-way-forward-for-Mali



我最初的想法:显然,我可以首先提供我希望与之匹配的名称……在上面的示例中,它们将是 past_returns 和 DougL(尽管上面没有使用昵称)。我认为让计算机猜出轻微的拼写错误并不难(尽管我个人不知道从哪里开始)。我可以想象可以使用其他技巧,例如假设一个字符串比其他团队使用的次数多得多,那么它更有可能成为昵称。昵称更有可能指代最近说话的人,而不是很久以前说话的人,或者根本没有谈到这个问题。并且它们应该以类似于全名/昵称在语料库中通常使用的方式在句子中使用。但我有兴趣了解简单的方法,以及尝试考虑更复杂技术的方法。

最佳答案

这可能会像您想要的那样复杂。从事物的半语言方面来看,研究主题将包括 Levenshtein Distance (用于检测已知名称/昵称的轻微拼写错误)和 Named Entity Recognition (首先用于检测名称/昵称的任务)。实际上,NER 值得一读,但现有系统可能对您的论坛句柄和昵称领域没有多大帮助。

想到的第一个粗略想法是,您可以针对英语词典(可能是从维基词典编译的数据集或类似 WordNet 的数据集)运行语料库的标记化版本,以查找作为候选名称的单词,然后通过一些启发式方法(它们是否以与已知全名相同的字母开头?它们与已知名称的 Levenshtein 距离是否较低?它们是否使用过多次?)。

您还可以针对非单词标记尝试一些聚类或监督 ML 算法。这可能会揭示一些经常出现在与给定用户名相同的线程中的非“单词”标记;同样,启发式方法可以帮助排除一些误报。

祝你好运;听起来是个有趣的问题——希望我至少提到了一件你还没有想到的事情。

关于nlp:替代拼写识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16619923/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com