gpt4 book ai didi

utf-8 - 某处是否有 UTF-8 的纯语言字符区域列表?

转载 作者:行者123 更新时间:2023-12-01 10:14:03 26 4
gpt4 key购买 nike

我正在尝试以识别不同语言字符的方式分析一些 UTF-8 编码的文档。对于我的工作方法,我需要忽略非语言字符,例如控制字符、数学符号等。只是试图剖析 UTF 标准的基本拉丁部分导致了多个区域,像除号这样的字符就在一系列有效拉丁字符的中间。

某处是否有标识这些区域的列表?或者更好的是,定义区域的 Regex 或 C# 中可以识别不同字符的东西?

最佳答案

看Unicode character categories .您可以使用字符类语法 \p{catname} 在 C# 正则表达式中匹配它们。因此,要匹配小写字母,您可以使用 \p{Ll}。你可以结合这些。 [\p{Ll}\p{Lu}] 匹配 Ll 或 Lu 类中的字符。

关于utf-8 - 某处是否有 UTF-8 的纯语言字符区域列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2846457/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com