python - 在python中，提取非英语单词-6ren

python - 在python中，提取非英语单词

转载作者：太空宇宙更新时间：2023-11-03 18:28:23

24

4

我有一个包含英语字符和其他语言字符的文本文件。使用下面的代码，我想从这个文件中提取一些非英语单词特别是韩语(UTF-8 中的 Unicode 范围从 AC00 到 D7AF)

有什么方法可以在这段代码中做到这一点吗？

我还需要做其他事情吗？

....
text = f.read()
words = re.findall(r'\w+', dataString)
f.close()
....

最佳答案

使用大写 \W = 匹配非字母数字字符，不包括 _。

>>> re.findall('[\W]+', u"# @, --►(Q1)-grijesh--b----►((Qf)), ");
[u'# @, --\u25ba(', u')-', u'--', u'----\u25ba((', u')), ']

来自:Unicode HOWTO?要读取 unicode 文本文件，请使用:

import codecs
f = codecs.open('unicode.rst', encoding='utf-8')
for l in f:
  # regex code here

我有一个文件:

:~$ cat file
# @, --►(Q1)-grijesh--b----►((Qf)),

从Python读取它:

>>> import re
>>> import codecs
>>> f = codecs.open('file', encoding='utf-8')
>>> for l in f:
...  print re.findall('[\W]+', l)
... 
[u'# @, --\u25ba(', u')-', u'--', u'----\u25ba((', u')),\n']
>>>

要阅读字母单词，请尝试

>>> f = codecs.open('file', encoding='utf-8')
>>> for l in f:
...  print re.findall('[^\W]+', l)
... 
[u'Q1', u'grijesh', u'b', u'Qf']

注意:小\w 匹配字母数字字符，包括 _。

关于python - 在python中，提取非英语单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22790234/

24

4

0

文章推荐： html - 将多行文本与图像垂直对齐

文章推荐： c# - 带总和的 LINQ GroupBy

文章推荐： python - 获取 flask 中最后插入的 id 时出现问题

英语.Net多语言开发中的问题
问题与现象多语言开发是一件成本很高的事情。很多公司会退而求其次选择只开发英文版本的软件分发到不同国家，但这里仍存在不同问题。我们就遇到了这样的问题，参考下面的代码。 CultureInf
MySQL 英语、波兰语和德语排序规则
在我的 codeigniter 项目中，我使用 MySQL 作为数据库。它的排序规则是“latin1_swedish_ci”。现在我需要扩展我的网站，除了“英语”之外还存储“波兰语”、“德语”、“法语
java - 英语 - 莫尔斯翻译器
从摩尔斯语翻译成英语就像一个魅力，但是将一个短语或句子(多个单词用空格分隔)从英语翻译成摩尔斯语只会产生翻译成摩尔斯语的第一个单词。例如，如果我输入“Hello World”，翻译器只会返回 '……
database - 英语、葡萄牙语和西类牙语的国家和国籍列表？
试图在谷歌上搜索一些提供英语、葡萄牙语和西类牙语国家和国籍列表的来源……没有运气。有人知道吗？一个多语言网站的链接，其中包含三种语言的任何这些列表的表格也很棒!! 最佳答案它在 unicode
html - 如何显示合并两种语言的文本(英语+阿拉伯语)
在过去的 15 天或更长时间里，我一直在为一个奇怪的问题而苦苦挣扎。实际上我有一些阿拉伯语文本，但也有一些英文文本。 MY NAME "some arabic text" "some arabic t
excel - 日期格式英语/法语
我有这种日期格式: Mon, Nov 19, 2018 我希望它采用法语短日期格式(DD/MM/YYY) 但我无法用excel的基本日期格式解决它。有任何想法吗？最佳答案您可以使用 MATCH
密码学。英语 "normal text"?
我被要求制作一个软件来加密和解密基于字母 frequencies 的“普通英语”文本。 . 问题是我在哪里可以找到一些与官方频率匹配的文本样本？到目前为止，我已经尝试过 "War and Peace
python - 如何在kivy中制作文件选择器以支持不同语言的文件(英语，希伯来语)
我正在使用 kivy 的文件选择器，当文件夹中有一个带有希伯来语名称的文件时，它会打印出乱码......如果可能的话，我想支持不同的语言。尝试更改文件选择器中的字体名称，对我来说不起作用。你能帮我找出
javascript - 如何在弹出窗口中选择语言(英语/法语)？
Popup Click me to toggle the popup! A Simple Popup! // When the user clicks on div, open the po
python - NLTK - 缺少停用词 - 英语
我刚刚下载了最新的 NLTK 版本及其所有资源。我看到 could 和 would 没有被列为停用词。但是 should 被视为停用词。这是某种已知错误还是...？ In [7]: import
android - 我怎么知道键盘语言？ (英语/法语)
我开发了一个短信发送器应用程序，我想知道用户使用的语言。那么，当用户键入一条消息时，我如何知道他/她使用的语言？最佳答案通过使用获取输入类型管理器: InputMethodManager imm
php - 如何编写正则表达式来匹配阿拉伯语、英语、数字和空格字符？
在 PHP 中使用正则表达式，如何让用户输入阿拉伯语、英语、数字、_、- 或空格。例如，用户可以输入以下字符串: 10-abc 10-米 10-abcmo _abcمن-10 最佳答案要检查您可以
c# - 希伯来语、英语、符号的正则表达式
作为我正在编写的一个小程序的一部分，我需要过滤一个可能是“gibrish”的字符串输入(UTF8 中的任何符号)输入可以是希伯来语和/或英语，但也有所有正常的符号，如:?%$!@'_' 等等... 一
translation - 俄语-英语 Multitran 词典
也许有人知道从中检索翻译的最佳方式是什么。是否有用于阅读 Multitran 词典数据库的图书馆？我的目标是一个简单的程序，它将检索给定的俄语单词的英文翻译。最佳答案也许你可以使用 StarDic
windows - Google Chrome在Windows 10(英语)中使用哪些默认字体？
在 chrome://settings/fonts 什么是标准字体，衬线字体，无衬线字体和固定宽度字体？对于不使用Windows但希望尽可能使用相同(或相似)设置的用户，这是必需的。最佳答案 St
python - NLTK 荷兰语 alpino 至英语
我正在尝试查找四元组英语单词，我尝试更改 alpino，它将荷兰语单词下载为 en 或英语，但它不起作用任何想法？ from nltk.util import ngrams from nltk.cor
java - 我们如何存储任何文本语言(英语、印地语、西类牙语等)并从数据库中检索相同的值
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 8 年前。我们允许用户在文本字段中输入任何语言，并将该值存储在数据库中，当用户在浏览器中查
ruby-on-rails - “英语”全局变量在 Rails 中不起作用
我正在尝试在 Rails 中使用英语 gem，因此我可以访问 $LAST_MATCH_INFO，$~ 的隐秘版本。然而，尽管需要英语，$LAST_MATCH_INFO 始终是 nil，而 $~ 仍然有
python - (英语、Perl、Python、Ruby)逐个代码片段进行比较？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
user-interface - 英语 UI 术语 : Directory, 还是文件夹？
当您设计应用程序时(假设使用英语)，并要求用户提供目录/文件夹的路径，您是否使用术语目录或文件夹? 其中一个比另一个更容易被理解吗？其中一个比另一个更“正确”吗？最佳答案请注意，它们不是同义词。目

首页

博学

6Ren·AI

商城

python - 在python中，提取非英语单词