java - CJK字符检测问题-6ren

java - CJK字符检测问题

转载作者：行者123 更新时间：2023-12-02 13:03:09

24

4

我想检测任何亚洲字符，我的代码在大多数情况下都有效，但不适用于韩语，我无法检测字符串何时具有韩语字符。

这是我的代码:

Pattern pattern = Pattern.compile("\\p{InHiragana}|\\p{InKatakana}|\\p{IsHan}|\\p{IsHangul}}", Pattern.UNICODE_CASE);
System.out.println(pattern.matcher("성동구").find()); //return false

我尝试了“InCJK_Compatibility、InCJK_Unified_Ideographs、InCJK_Compatibility_Forms”和其他 CJK 组，但没有人工作

固定代码:

Pattern pattern = Pattern.compile("\\p{InHiragana}|\\p{InKatakana}|\\p{IsHan}|\\p{IsHangul}", Pattern.UNICODE_CASE);
System.out.println(pattern.matcher("성동구").find()); //return true

最佳答案

试试这个方法，它对我有用:

public class MatcherMatch {

public static void main(String[] args) {
    Pattern pattern = Pattern.compile("\\p{IsHangul}");
    Matcher matcher  = pattern.matcher("김인재 한국어/조선말");
    while(matcher.find()) {
        System.out.println(matcher.group());
    }
}

截图:

关于java - CJK字符检测问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44241685/

24

4

0

文章推荐： kotlin - 在Kotlin中存储String网格的最佳数据结构是什么？

文章推荐： clojure - :pre and :post? 的消息更易读

文章推荐： sql-server - SQL Server 的数据库优化顾问是否会修改数据？

html - 如何结合 Noto Sans CJK SC 和 Noto Sans CJK TC
这真是一个奇怪的要求，我正在制作一个香港网站。我需要在同一个网页上支持简体和繁体中文，并且我还希望它是谷歌Noto字体。 Google 提供了简体和繁体两种字体版本。我的问题是，如果我只设置Noto
cjk - 如何在pymysql中使用汉字建表？
1.sqlite3 import sqlite3 con=sqlite3.connect("g:\\mytest1.db") cur=con.cursor() cur.execute('create
cjk - 如何在pymysql中使用汉字建表？
1.sqlite3 import sqlite3 con=sqlite3.connect("g:\\mytest1.db") cur=con.cursor() cur.execute('create
php - CJK 空白字符消失
我有一个 PHP 脚本，它通过 Salesforce API 从 Salesforce 获取数据并使用 file_put_contents 将输出写入一个文件。数据是韩文字符和英文字符的混合。当我在
c# 中文转拼音without CJK
Xamarin写Android程序时，通常要使用按中文首字母分组显示（如通讯录）。于是需要被迫包含CJK，不过包含后包肯定是会变大的，于是。。。。自己写了一个硬枚举的中文转拼音的类。原理是
nlp - CJK 语言发音 API
有没有好的(最好是开放的)中/日/韩语发音音频文件的 API 或数据库？我一直在环顾四周，但不知何故除了Forvo之外什么也找不到。或谷歌翻译。两者对我来说都是矫枉过正，因为我只需要这些语言的数据，只
unicode - 如何标记文档中的所有 CJK 文本？
我有一个文件，file1.txt ，包含英文、中文、日文和韩文文本。为了在 ConTeXt 中使用，我需要根据语言(英语除外)标记文件中的每个文本区域，并输出一个新文件，例如，这是一个示例行: The
perl - 检测单个 CJK 字符
我有一个字符串，可以是英文单词，也可以是单个 CJK 字符。我保证该字符串采用 UTF-8 编码。我正在 perl 脚本内部工作。更高级别的问题是我有一个像上面描述的那样的字符串数组。我正在做一个连
ocaml - 包含 CJK 字符的字符串长度
当给定一个包含 CJK 字符的字符串时，String.length 返回字符串中错误的字符数，因为它计算的是字节数。例如: # String.length "第1";; - : int = 4 字符串
javascript - 如何将 CJK 文本拆分为单词？
我使用 JavaScript 创建音译。我想知道是否有可能将 CJK 文本拆分成一系列单词，根据某些分词标准定义。还有其他选择吗？期望的行为: 设置:动的密习近平结果:[动,的,密,习,近平] 最
css - 为 CJK 字符做垂直文本的最佳方法？
如您所知，在中国大陆、台湾、日本和韩国，人们有时会垂直书写和阅读，here's a simple example : 几年前，没有办法这样做。好吧，至少没有漂亮的方法，你知道当时流行的一种方法是:每
Python3 与输入函数和 CJK 的意外视觉交互
抱歉我的英语不好，这不是我的第一语言。我有一个 Python3 文件，其内容是 print(input(">")) 当我在 zsh 或 bash 上运行它并编写 hangul 并使用我的退格键时，会
unicode - Unicode 基本多语言平面是否足以满足 CJK 使用者的需求？
问题:“仅支持 Unicode BMP 是否足以使以中文/日文/韩文为母语的人使用其母语的应用程序？” 我现在最关心的是说日语的人，但我也对中国人的答案感兴趣。如果应用程序仅支持 BMP 上的字符 -
qt - 为什么我的 QML CJK 文本呈现损坏的字形？
我的应用程序允许用户即时切换语言。我发现大约 10% 的用户切换到中文或日文时，UI 文本的字形呈现不正确。此应用程序在 iMX6 平台上的 Linux 下运行。正在使用 Qt 5.5.0。 QML
c++ - gdb 使用 CJK 显示乱码
我确定这是由 gdb 的编码引起的，并在 gdb 中找到了改变编码的命令: 设置字符集字符集名称我试过utf8, UTF8, UTF-8, utf-8,gbk、gb2312等来替换charsetna
java - 检查字符串是否包含 CJK(中文)字符
这个问题在这里已经有了答案: Use regular expression to match ANY Chinese character in utf-8 encoding (8 个答案) 关闭 9
CJK 字符的 CSS unicode 范围
我的首选字体是 Inconsolata，它会破坏 GitHub 的 octicon 网络字体。昨天我更新了我的 Google Chrome 用户样式表以在 GitHub 上正确显示 octicon 字
c# - 检测字符串中的 CJK 字符 (C#)
我正在使用 iTextSharp 生成一系列 PDF，使用 Open Sans 作为默认字体。有时，名称会插入到 PDF 的内容中。但是我的问题是我需要插入的一些名称包含 CJK 字符(存储在 SQL
excel - Excel 中包含 CJK 字符的单元格的 If 语句
我正在尝试在 Excel 2016 中创建一个 IF 语句。我的电子表格有日语字符，我需要进行比较 =IF(A2="ア", TRUE, FALSE) 但是，即使 A2 实际上包含片假名ア，该函数也总
regex - 使用 `find` 命令查找带有 CJK 字符的文件的正则表达式是什么？
我要查找的文件格式为 cmn-我.flac ，其中 CJK 字符是可变的。使用 find命令，我应该使用什么正则表达式来查找名称中包含单个 CJK 字符的所有文件？提示: 以下正则表达式查找所有

首页

博学

6Ren·AI

商城

java - CJK字符检测问题