gpt4 book ai didi

language-agnostic - 基于拉丁语的分词语法规则

转载 作者:行者123 更新时间:2023-12-04 18:29:05 24 4
gpt4 key购买 nike

我正在研究一项功能,即为基于拉丁语的语言(目前为英语)应用语言分割规则(语法)。
目前我正处于破坏用户输入句子的阶段。

e.g.:

"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我将用句号 . 打破上面的句子这是我在点上打断句子的正常情况,但是有 n 个用于打断句子的字符,例如( . ! ? 等)。
我有以下 SRX 分段规则。
有没有引用我可以用它来解决我的语言分割规则吗?

最佳答案

您可能想看看 Reynar 和 Ratnaparkhi 的论文 A Maximum Entropy Approach to Identifying Sentence Boundaries (1997)。

摘要

We present a trainable model for identifyingsentence boundaries in raw text. Givena corpus annotated with sentence boundaries,our model learns to classify each occurrenceof., ?, and / as either a valid or invalidsentence boundary. The training procedurerequires no hand-crafted rules, lexica,part-of-speech tags, or domain-specificinformation. The model can therefore betrained easily on any genre of English, andshould be trainable on any other Romanalphabetlanguage. Performance is comparableto or better than the performance ofsimilar systems, but we emphasize the simplicityof retraining for new domains.


他们生成的句子分割器被称为 终结者并且可用 here .

关于language-agnostic - 基于拉丁语的分词语法规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2816382/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com