java - Unicode 日文延长的声音标记被排除在假名脚本之外？-6ren

java - Unicode 日文延长的声音标记被排除在假名脚本之外？

转载作者：行者123 更新时间：2023-11-30 08:50:59

31

4

我正在尝试通过删除特殊字符来清理字符串以生成 slug。也就是说，我想保留 CJK 字符，否则这些语言将一无所有。

所以我有一个正则表达式，它应该通过列出脚本来保留 CJK 字符:

"[^-_.\\w-\\p{script=Han}\\p{script=Hira}\\p{script=Kana}\\p{script=Hang}]"

问题是，片假名长音标记“ー”似乎被排除了。

http://www.unicodemap.org/details/0x30FC/index.html

这是显示问题的代码:

https://github.com/erwan/unicode-java-issue/blob/master/src/main/java/com/example/Hello.java

我列出的脚本中没有吗？

编辑:好的，如果您愿意，可以在此处编码，但它所提供的信息并不比正则表达式本身多得多。它非常有用，因此人们可以尝试。

package com.example;

class Hello {
    public static void main(String[] args) {
        String input = "%;アレルギー[]abcd";
        String output= input.replaceAll("[^-_.\\w-\\p{script=Han}\\p{script=Hira}\\p{script=Kana}\\p{script=Hang}]", "");
        System.out.println(output);
    }
}

最佳答案

不，事实上，它不在列出的脚本中。 Unicode Standard将此字符放在 Common 脚本中。

应该区分 Unicode 中的“脚本”和“ block ”。该字符属于片假名 block ，还有其他一些不是字母的字符，例如“片假名迭代标记”(\u30fd)。但它不属于片假名脚本。只有实际音节属于片假名脚本。

您可以做的一件事是将 script 指示替换为 katakana 的 block:

output = input.replaceAll("[^-_.\\w-\\p{script=Han}\\p{script=Hira}\\p{block=Katakana}\\p{script=Hang}]", "");

这种情况下的输出将包括延长的声音标记。

或者你可以这样做:

Matcher m = Pattern.compile("[^-_.\\w]",Pattern.UNICODE_CHARACTER_CLASS).matcher(input);
output = m.replaceAll("");

此模式将匹配所有语言的所有单词字符，包括但不限于日语。

对于输入字符串"%;アレルギー[]{}=abceⸯd汉字ру́сский"，这将产生

アレルギーabceⸯd漢字ру́сский

而我的第一个建议，带有 block 的那个，输出将是:

アレルギーabced漢字

因此，如果您只想限制为日语(和韩语)，我的第一个建议可能更适合您，而如果您想要所有国际单词字符，第二个会更好。

关于java - Unicode 日文延长的声音标记被排除在假名脚本之外？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30735835/

31

4

0

文章推荐： java - 创建用户定义函数 : if already exists?

文章推荐： javascript - 如何使用 Zurb Foundation 4 填充网格行？

文章推荐： javascript - Bootstrap 轮播文本淡入淡出

java - 如何在java应用程序中显示unicode字符(例如中文，日文)？
我尝试过下面的代码，但只有“？”打印而不是 unicode 字符。 public static void main(String s[]){ char i1 = 0x0ABF; char i2
python - 日文、韩文字符未显示在列表中，但单独打印时显示正常
我有不同语言的字符串，主要是日语，当我尝试将它们打印为字符串时，它们显示得很好。但是，当我将其中许多添加到 python 列表中，然后打印出列表时，它们显示为如下文本:xe9 例如: string1
php - 日文/英文输入的mysql数据库: utf8_unicode_ci or utf8mb4_unicode_ci?
我目前正在开发一个包含日语和英语字符串的 mysql 数据库。当前排序规则:utf8_general_ci。我必须使用 LIKE %'japaneseWordHere'% 查询字符串中的日语单词。
javascript - 日文、英文标签(如 Twitter)的正则表达式
目前，我正在使用这个正则表达式来检测日语标签和英语标签。\B([#＃][·・ー_0-9０-９a-zA-Zａ-ｚＡ-Ｚぁ-んァ-ン一-龠]{1,24})(?=\W|$)规则是: Hashtag must
c++ - 如何将 Unicode CString(日文)打印到文本文件？
这对我来说似乎很难。我有将 CString 打印到文本文件的代码，但该值恰好是 Unicode(日语)。一旦命中此行，它下面的任何内容都不会被打印。知道如何在文本文件中打印日语文本吗？ #defin
python - 一个 unicode 字符串中有多少个可显示字符(日文/中文)
我需要知道包含日文/中文字符的 unicode 字符串中有多少个可显示字符。使问题变得非常明显的示例代码: # -*- coding: UTF-8 -*- str = '\xe7\x9d\xa1\x
html - 日文 unicode 字符正在反转 CSS 向左浮动
请在 IE 中检查以下 js fiddle(我使用的是 10) http://jsfiddle.net/bF65u/1/ .inlineCol2 { width: 50%; } .op
python - curl 命令中文/日文 url 编码
我想向站点发送一个发布请求。下面的 python 代码工作正常。 # -*- encoding=utf-8 -*- import urllib, urllib2 url = "http://xxx.c
vba - 在 VBA 中使用多种语言(英文、中文、日文)
这个问题在这里已经有了答案: Unicode string literals in VBA (3 个回答) How to type Unicode currency character in Visu
fonts - DejaVu 是否支持 CJK(中文、日文、韩文)字形？
我正在考虑使用 DejaVu 字体为 CJK 脚本创建 [Ruby-like][1] 字体。但是我不确定，是否 DejaVu 提供/支持 CJK 字形？否则，您是否推荐了另一种可重复使用的免费/开
python - 使用Python OpenCV在图像路径(中文，日文，韩文)中读取/加载带有Unicode字符的图像
我有一个图像目录，每个图像的名称中都有一个汉字。我正在尝试列出所有图像，在列表上循环，读取并显示每个图像。图片路径类似于https://github.com/sirius-ai/LPRNet_Pyt
ios - Italic 字体不适用于 iOS 7 上的中文/日文/韩文
我想在 UITextView 中设置斜体字体样式，但斜体字体在 iOS 7 上不适用于中文/日文/韩文。有人能帮忙吗？最佳答案因为iOS上没有斜体中文字体，需要使用affine transform
python - 在 pandas plot 图例中显示非 ascii(日文)字符
如果我这样做: import pandas as pd pd.DataFrame( data=nr.random( (2,2) ), columns=[u'é',u'日本'] ).plot() 结果:
java - 在 Android 中区分 CJK 语言(中文、日文、韩文)
我希望能够识别中文、日文和韩文的书面字符，既可以作为一般语言，也可以作为分割语言。这些是原因: 将 CJK 识别为一个通用组:我正在制作一个垂直脚本蒙古语 TextView。为此，我需要将文本行旋转
internet-explorer - Internet Explorer 的 URL 转义中文/日文 Unicode 字符
我正在尝试对我正在处理的几个 URL 中的非 ASCII 字符进行 URL 转义(百分比编码)。我正在使用一个 Flash 应用程序，该应用程序从这些 URL 加载图像和声音剪辑等资源。由于文件名可以
python - 如何读取亚洲语言(中文、日文、泰文等)的 PDF 文件并将其存储在 python 中的字符串中
我正在使用 PyPDF2 在 python 中读取 PDF 文件。虽然它适用于英语和欧洲语言(英语字母表)，但图书馆无法阅读日语和中文等亚洲语言。我尝试了 encode('utf-8')、decode
vba - 在 VBA ListView 中显示乱码(而不是希伯来文、西里尔文、阿拉伯文、中文、日文、希腊文)
我在 VBA 用户窗体中创建了一个 ListView 。 Listview 显示用户在 3 个文本框中插入的数据(单击“保存”按钮后)。用户可以在希伯来语中插入文本，但在 ListView 中，文本显
ios - 无法通过片假名(日文)1 字节和 2 字节(ji 和｀ﾞ)搜索
我有一个由 1 byte slice 假名组成的列表名称(示例｀ﾞ)，我通过 2 byte slice 假名 ji 进行搜索，但结果为零。你知道如何将搜索文本从 2 字节的假名转换为 1 字节吗？请
ios - 如何设置 NSNumberFormatter 以使用 "万"(日文/中文 10,000 标记)显示数字？
我的 iOS 应用在不同的本地化版本(en_US、en_AU、ja_JP 等)中显示不同的货币(USD、JPY、AUD、EUR) ). 对于日语地区/语言(两者都在我的设备上设置)，如果我: NSNu
android - 处理非英文 Unicode(如中文、日文)时，目标 API 28 中不正确的 EditText 行间距行为
我们注意到，在 targetSdkVersion 28 期间，EditText 将在输入非英语 unicode(如中文、日语等)后倾向于“稍微下推”该行. 当代码为 targetSdkVersion

首页

博学

6Ren·AI

商城

java - Unicode 日文延长的声音标记被排除在假名脚本之外？