- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我尝试以下 echo 'ひらガ' | grep '[[:alnum:]]'
它与字符串匹配。
但我的语言环境显示英语:
LANG=en_US.UTF-8
LANGUAGE=en_US
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC=en_US.UTF-8
LC_TIME=en_US.UTF-8
LC_COLLATE="en_US.UTF-8"
LC_MONETARY=en_US.UTF-8
LC_MESSAGES="en_US.UTF-8"
LC_PAPER=en_US.UTF-8
LC_NAME=en_US.UTF-8
LC_ADDRESS=en_US.UTF-8
LC_TELEPHONE=en_US.UTF-8
LC_MEASUREMENT=en_US.UTF-8
LC_IDENTIFICATION=en_US.UTF-8
LC_ALL=
不应该 [:alnum:] 匹配语言环境中设置的语言,这里发生了什么?
最佳答案
我打算将此作为部分答案发布,因为我花了一些时间来挖掘这些信息,而且评论太长了。
如果您查看 Linux 安装时位于 /usr/share/i18n/locales
的区域设置定义文件,我们可以发现 LC_CTYPE
的定义(它定义了字符的分类,如 C 中的 ctype.h
和 en_US
中的 POSIX 字符类所使用的那样,从 en_GB
中复制定义, en_GB
中的 LC_CTYPE
定义复制了 i18n
中的定义,并进行了少量添加。
查看文件i18n
,大部分LC_CTYPE
定义都在这里。我们可以看到 alpha
包含了 Unicode 定义的所有语言的字母,下面的注释简要解释了基本原理:
% The "alpha" class of the "i18n" FDCC-set is reflecting
% the recommendations in TR 10176 annex A
alpha /
标准 ISO/IEC TR 10176 standard 的附件 A 似乎建议使用“用户定义标识符的扩展指令集”,这应该是“提高母语不是英语的程序员的可理解性”,尽管我看不出它是如何实现的与 alpha
字符类的定义有关。
关于regex - grep POSIX 正则表达式匹配印地语和日语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31473158/
我接到了一个项目,其中我需要创建一个可以存储和检索非英语数据的数据库。我已经查找并建立了与 UTF 的所有连接。然而,每次它插入数据库时,编号都没有。行数增加,但我的数据库中只得到空白字段。
该函数只是获取一些视频的数据,并尝试在水平堆叠条形图中表示它们。参数数据是列表字典 {'key' : [ ], 'key2' : [ ].....}。下面给出了示例数据(图像中结果的数据)。出现的问题
我正在创建一个 Java 应用程序,我想在其中以英语以外的语言输入数据。例如。我想以印地语 (UTF-8) 字符输入数据。我已将数据转换为十六进制字符串 '\xe0\xa4\xa8\xe0\xa4\x
我正在开发一个与印地语卡维塔(诗歌)相关的应用程序。我希望诗歌以真实诗歌的显示方式显示,如下图所示 现在的问题是我不知道如何使用 TextView 来显示这种文本 最佳答案 使用垂直方向的线性布局。为
我环顾四周,找不到答案。 我想从 mysql 表(印地语词典)中选择一个单词来获取定义。 没有错误,只是没有选择它。我用英文字母测试了它并且有效。我尝试使用 utf8_bin、utf_general_
我正在尝试在 mysql 中存储 devnagri(印地语)字体,但是在从执行 php mysql 插入代码的浏览器执行 mysql 插入后,结果是 होली के दà¥
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 8 年前。 我们允许用户在文本字段中输入任何语言,并将该值存储在数据库中,当用户在浏览器中查
我正在使用 itextg 库在我的印地语安卓设备上创建 pdf。 (PDF 正在用英文完美创建)。 以下是我的代码- Gradle - compile 'com.itextpdf:itextg:5.5
我正在从我的手机接收 Devanagri(印地语)脚本中的 SMS 消息到我的桌面程序,但它以一种编码(例如 - 091A09470924002009240924)显示数据,我发现它是 unicode
有人知道最近使用现代机器学习技术对印度文字进行光学字符识别的工作吗?我知道加尔各答的 ISI 正在进行一些研究,但据我所知,在过去的 3-4 年里没有出现任何新的结果,而且天城文的 OCR 非常缺乏!
我必须在浏览器屏幕上显示印地语(或任何地区语言)的文本。我将从数据库中获取此文本。 为此,我从非常基础的层面开始: String escapedStr = "\\u0905\\u092d\\u0940
我有一个代码,可以根据其 url 搜索数据库并生成相关结果。当数据库中的数据是英文时它工作得很好但是当我用我的语言(印地语)替换它时它开始产生垃圾编码。从我的方法生成的 JSON 响应完美地生成了所需
我正在使用 itextpdf 从我的 android 应用程序中的 pdf 中提取文本。它适用于英语语言的 pdf,但是当我尝试从马拉地语或印地语 pdf 中提取文本时,它没有提取正确的文本。 结果为
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 7 年前。 我有一个 MySQL 数据库。我创建了一个具有以下定义的表,它支持多种语言(印地
我将所有数据库/表和列设置为 UTF-8_general_ci 排序规则集。 我遇到的情况:- 当我通过 phpmyadmin 手动插入印地语数据时,我可以在 phpmyadmin 中看到印地语字符,
Problem: Not getting unicode (hindi) text in mysql record set/php array 我正在使用 mysql 数据库,我在表 unicode
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我希望 tesseract 引擎使用 eq.traineddata研究一些数学以及孟加拉语、印地语文本。当我去 /usr/share/tesseract-ocr/4.00/tessdata ,我只看到
我正在尝试更改每次用户用英语或印地语编辑标记时的代码,然后相应更新最高的印地语和/或英语标记 Controller 代码 var app = angular.module('myApp', []);
这个问题已经有答案了: UTF-8 all the way through (13 个回答) 已关闭 5 年前。 我通过 $.POST 发布 UTF-8(印地语)数据。我得到这个:मनमà
我是一名优秀的程序员,十分优秀!