python - 使用 Python 自然语言工具包阅读孟加拉语-6ren

python - 使用 Python 自然语言工具包阅读孟加拉语

转载作者：太空宇宙更新时间：2023-11-03 14:55:45

25

4

我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于我在 gedit 文本编辑器中的孟加拉文本文件的快照:

sublime 文本编辑器中的文件快照:

从快照中您可以看出问题所在。问题是 Unicode 组合问题(虚线环是一个死赠品)。这是阅读文本的代码段:

>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')

输出是:

输出应该是'একবার'而不是'একব''র'。可以做什么？？提前致谢。

最佳答案

您需要为 Bengali characters 提供 Unicode 范围.

使用

word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")

撇号可以保留在字符类中。

关于python - 使用 Python 自然语言工具包阅读孟加拉语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42718792/

25

4

0

文章推荐： python - 剥离 Html 标签 Findall + Beautiful Soup

文章推荐： redirect - 阻止附加域的 SSL

文章推荐： Python:BeautifulSoup修改文本

文章推荐： java - 带有自签名证书的 SSL

java - 的意思？ java 语
这个问题已经有答案了: What is the Java ?: operator called and what does it do? (17 个回答) 已关闭 8 年前。 ltVal = node
java - 我如何嵌套这个条件语句？ java 语
我是一名 Java 学生，我在嵌套该程序的条件语句时遇到问题 Exercise CozaLozaWoza (Loop & Condition): Write a program called Coza
java - 如何将输入句子的每个字母大写？ ( java 语)
首先，我想给出用户想要留下的句子的数量，当他的写作结束时，我的代码开始将每个单词的第一个字母大写(在 Java 中)。 import java.util.Scanner; public class I
java - 有没有办法在基类中使用重写函数？ ( java 语)
我尝试在基类中实现一个函数，该函数使用子函数(defiend 作为基类中的抽象函数)。我认为一个例子可以最好地说明这个问题。 abstract class Animal{ public void
java - 如何重复一段文本中的每个单独字母？ java 语
就像在口吃中一样，如果文本为“dean”并且乘数为 3，则结果将是“dddeeeaaannn”。 public static void repeatLetters() { String text
java - 如何使这个二叉搜索树工作？？？ ( java 语)
public void insert(int data) { if (root == null) root = new AVLNode(data); else {
java - 为什么XPATH无法访问该标签的值？ ( java 语)
我是 XPATH 的新手，并且遇到以下问题: 我有以下代码片段，但似乎无法按我的预期工作: String XML = cdataContent;
java - 有符号整数类型的签名存储在哪里？ ( java 语)
例如，Java 数据类型字节将数据从 -128 到 127 存储在单个字节中。为了能够区分 - 1 到 -128 从 0 到 127 将需要额外的数据，这些数据将采用数据类型覆盖其分配的存储空间。不可
java - 如何检查字符串是否包含指定字符以外的字符。 ( java 语)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
java - 如何限制排列的生成？ ( java 语)
Dataset: P1: Lion, Snow, Chair P2: Min: 0, Max: 28 P3: Min: 34, Max is 39. 我的程序以一系列数组列表的形式提供上述数据集(P
java - 如何模拟不同的网络场景？ ( java 语)
我正在构建一个应该 24/7 全天候运行的客户端服务器应用程序。应用程序指定检测网络故障(使用心跳)并尽快重新连接到服务器。我做的第一个测试只是停止客户端或服务器，然后重新启动，一切正常。我想知道是
java - 这个的编译时类型是什么？ ( java 语)
我怀疑它是编写它的类的类型，但我不是 100% 确定，有人可以证实我的怀疑并可能提供对定义此行为的 Java 语言规范的引用吗？假设类 A 有一个方法 a()，它在其主体中使用了 this 关键字，
语: how to enforce an interface on a template function
我已经在谷歌上搜索了两个小时，但没有成功。如果我有一个模板函数并且我想在模板类型上强制执行一个接口(interface)，我该怎么做？例如。 void doStuff(T)(bool param)
java - 使用不带replaceAll()的循环打印不带元音的UI； java 语
我正在尝试获取用户输入并对其进行修改，以便打印不带任何元音的字符串。我已经能够使用以下代码成功完成此操作。 Scanner in = new Scanner(System.in); Syste
java - 线程.sleep(); java 语
每当我使用 Thread.sleep(); 时在 do while 循环中，提示告诉我，“在循环中调用 Thread.sleep 可能会导致性能问题。”我从许多其他网站和书籍上听到过这一点。我可以用什
java - 生成一个范围内的随机数。无溢出。 java 语
请不要将其视为以下内容的重复项而将其忽略: How to generate random positive and negative numbers in java 我需要使用带有种子的随机数生成器。
java - 如何选择范围内的随机数，但加权到该范围的一部分？ ( java 语)
我想在一个数字范围内选择随机数，但权重偏向该范围的一部分。例如: 选择1-10之间的随机数对其进行加权，使 1-5 比 6-10 的可能性高 20% 这可能吗？我该怎么做？最佳答案这取决于您希望
java - 如何初始化 TIME 数组？ java 语
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
java - 如何更改或设置新的 Activity 启动器应用程序？ ( java 语)
我有一个付款 Activity 和启动 Activity ，它在用户购买后显示内容应用程序。付款 Activity 是Manifest.xml中的默认启动器，我想将启动器 Activity 设置为启动
arrays - 语: Construct an array from a pointer and length
我有一个指针和长度。如何从他们那里得到一个动态数组？最佳答案设ptr是一个指针，len是一个长度，那么很容易如下: ptr[0..len] 请注意，这不会复制数组，而是就地使用数据。如果要复制数

首页

博学

6Ren·AI

商城

python - 使用 Python 自然语言工具包阅读孟加拉语