nlp:替代拼写识别-6ren

nlp:替代拼写识别

转载作者：行者123 更新时间：2023-12-04 04:57:04

24

4

非常感谢编辑我的问题标题和标签的帮助!

有时，我的“对话”语料库中的一位参与者会使用昵称(通常是缩写或拼写错误)来指代另一位参与者，但此后我只会说“昵称”。假设我愿意手动告诉我的软件我是否认为各种可能的昵称实际上是昵称，但我希望软件提供识别人的句柄和潜在昵称之间可能匹配的列表。我该怎么做？

关于我和我的语料库的背景:我没有进行自然语言处理的经验，但我是 R 的称职数据分析师。我的数据由 70 个团队生成，每个团队预测 100 个不同事件在 future 某个时间发生的可能性。结果我有 70 x 100 = 7000 个文本文件，其中包含参与者所做的预测流以及他们在预测中包含的评论。我将在下面粘贴其中一个文本文件的一小段，这与马里政府是否会与 MNLA 进行谈判有关:

02/12/2013 20:10: past_returns answered Yes: (50%)

I hadn't done a lot of research when I put in my previous placeholder... I'm bumping up a lot due to DougL's forecast

02/12/2013 19:31: DougL answered Yes: (60%)

Weak President Traore wants talks if MNLA drops territorial claims. Mali's military may not want talks. France wants talks. MNLA sugggests it just needs autonomy. But in 7 weeks?

02/12/2013 10:59: past_returns answered No: (75%)

placeholder forecast... http://www.irinnews.org/Report/97456/What-s-the-way-forward-for-Mali

我最初的想法:显然，我可以首先提供我希望与之匹配的名称……在上面的示例中，它们将是 past_returns 和 DougL(尽管上面没有使用昵称)。我认为让计算机猜出轻微的拼写错误并不难(尽管我个人不知道从哪里开始)。我可以想象可以使用其他技巧，例如假设一个字符串比其他团队使用的次数多得多，那么它更有可能成为昵称。昵称更有可能指代最近说话的人，而不是很久以前说话的人，或者根本没有谈到这个问题。并且它们应该以类似于全名/昵称在语料库中通常使用的方式在句子中使用。但我有兴趣了解简单的方法，以及尝试考虑更复杂技术的方法。

最佳答案

这可能会像您想要的那样复杂。从事物的半语言方面来看，研究主题将包括 Levenshtein Distance (用于检测已知名称/昵称的轻微拼写错误)和 Named Entity Recognition (首先用于检测名称/昵称的任务)。实际上，NER 值得一读，但现有系统可能对您的论坛句柄和昵称领域没有多大帮助。

想到的第一个粗略想法是，您可以针对英语词典(可能是从维基词典编译的数据集或类似 WordNet 的数据集)运行语料库的标记化版本，以查找作为候选名称的单词，然后通过一些启发式方法(它们是否以与已知全名相同的字母开头？它们与已知名称的 Levenshtein 距离是否较低？它们是否使用过多次？)。

您还可以针对非单词标记尝试一些聚类或监督 ML 算法。这可能会揭示一些经常出现在与给定用户名相同的线程中的非“单词”标记；同样，启发式方法可以帮助排除一些误报。

祝你好运；听起来是个有趣的问题——希望我至少提到了一件你还没有想到的事情。

关于nlp:替代拼写识别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16619923/

24

4

0

文章推荐： highcharts - 仪表 Highcharts : Exterior circle color

文章推荐： arrays - 如何在 Arduino 中设置关联数据结构

文章推荐： java - 内存中的内部类在哪里？

java - 使用 icu4j 格式化数字(拼写)
我想通过用语言环境拼写数字来本地化数字，最后使用了 ICU4J。我在许多地区都取得了成功，但似乎没有在格鲁吉亚、土耳其或阿拉伯语等地区完成。 ULocale locale = new ULocale(
swagger - 为定义的 Swagger 路由提供备用(国际)拼写
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗？或者我是否需要为每个拼写定义一个单独的路由？ /authori
swagger - 为定义的 Swagger 路由提供备用(国际)拼写
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗？或者我是否需要为每个拼写定义一个单独的路由？ /authori
yahoo-boss-api - 如何在 Yahoo BOSS 上获得更好的建议(拼写)？
我使用 Yahoo BOSS 的时间很短。这是一个简单的搜索 API，但拼写建议支持确实不那么强大。周围的人是否有任何关于在 BOSS 上获得更好的拼写建议的想法。最佳答案不幸的是，甚至在几年后，
c++ - 从 C/C++ 程序调用 OpenOffice 拼写/语法检查
问题如下:我正在编写一个强力解密器来破解一些 super secret 代码(这是一场竞赛，而不是犯罪)，结果证明这是不可能的:树中的节点太多需要被搜查。为了克服这个问题，我认为检查中间“解决方案”以
c# - 通过 C# 访问 Google 拼写/建议 API
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu

首页

博学

6Ren·AI

商城

nlp:替代拼写识别