gpt4 book ai didi

unicode - 使用马尔可夫模型将全部大写转换为混合大小写和相关问题

转载 作者:行者123 更新时间:2023-12-04 18:52:14 25 4
gpt4 key购买 nike

我一直在考虑使用马尔可夫技术将丢失的信息恢复到自然语言文本中。

  • 将全部大写文本恢复为大小写混合。
  • 将重音/变音符号恢复为应该有它们但已转换为纯 ASCII 的语言。
  • 将粗略的音标转换回本地字母。

  • 这似乎是从最难到最难的顺序。基本上问题是解决基于上下文的歧义。

    我可以使用维基词典作为字典,使用维基百科作为语料库,使用 n-gram 和隐马尔可夫模型来解决歧义。

    我在正确的轨道上吗?是否已经有一些服务、库或工具用于此类事情?

    示例
  • 乔治在灌木丛中丢失了 SIM 卡 ⇨ 乔治在灌木丛中丢失了 SIM 卡
  • tantot il rit a gorge déployée ⇨ tantôt il rit à gorge déployée
  • 最佳答案

    我认为您可以将马尔可夫模型 (HMM) 用于所有三个任务,但也可以查看更现代的模型,例如条件随机场 (CRF)。另外,这里有一些对你的 google-fu 的提升:

  • 将混合大小写全部恢复为文本

  • 这称为 truecasing。
  • 将重音/变音符号恢复为
    应该有它们但的语言
    已转换为纯 ASCII

  • 我怀疑马尔可夫模型在这方面会遇到困难。 OTOH,带标签的训练数据是免费的,因为您只需使用目标语言中的一堆带重音的文本并去除重音即可。另请参阅下一个答案。
  • 转换粗略的音标
    回到原生字母

  • 这似乎与机器音译密切相关,已尝试使用 pair HMMs (来自生物信息学/基因组工作)。

    关于unicode - 使用马尔可夫模型将全部大写转换为混合大小写和相关问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4495762/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com