gpt4 book ai didi

python - 泰米尔语分块

转载 作者:行者123 更新时间:2023-11-28 22:34:53 27 4
gpt4 key购买 nike

我想为泰米尔语(一种印度语)使用 NLTK 词 block 划分器。 However, it says that it doesn't support Unicode because it uses the 'pre' module for regular expressions.

Unresolved Issues

If we use the re module for regular expressions, Python's regular expression engine generates "maximum recursion depth exceeded" errors when processing very large texts, even for regular expressions that should not require any recursion. We therefore use the pre module instead. But note that pre does not include Unicode support, so this module will not work with unicode strings.

有任何解决方法或其他方法的建议吗?

最佳答案

Chunkers 是特定于语言的,因此您无论如何都需要为泰米尔语训练一个。当然,如果您对可用的现成解决方案感到满意(我不知道是否有任何解决方案,例如现在删除的答案中的链接是否有用),您可以在这里停止阅读。如果没有,您可以训练自己的,但您需要一个用您想要识别的 block 注释的语料库:也许您正在寻找 NP block (通常情况),但也许是其他东西。

一旦有了带注释的语料库,请仔细阅读 NLTK 书的第 6 章和第 7 章,尤其是 section 7.3, Developing and evaluating chunkers. .第 7 章从 nltk 的正则表达式分块器开始,继续阅读,您将了解如何构建不依赖于 nltk 的基于正则表达式的分块引擎的“序列分类器”。 ( Chapter 6 对此必不可少,所以不要跳过它)。

这不是一项简单的任务:您需要了解分类器方法,将各个部分放在一起,可能会将您的语料库转换为 IOB format ,最后选择能给你满意性能的特征。但它非常简单,可以针对任何语言或您拥有带注释语料库的分块任务执行。唯一开放的部分是思考上下文线索,您可以将这些线索转换为特征以帮助分类器做出正确决定,并进行试验直到找到一个好的组合。 (从好的方面来说,它是一种比纯基于正则表达式的解决方案更强大的方法,即使对于 ascii 文本也是如此)。

关于python - 泰米尔语分块,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38644313/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com