c# - 正则表达式未使用 Unicode 字符范围-6ren

c# - 正则表达式未使用 Unicode 字符范围

转载作者：行者123 更新时间：2023-12-02 20:57:49

25

4

NOTE

Another question was asked C# Regular Expressions with \Uxxxxxxxx characters in the pattern already. This question differs in that it is not about how surrogate pairs are calculated, but how to express unicode planes higher than 0 in a regex. It should be clear from my question that I already understand why these code units are being expressed as 2 characters - they are surrogate pairs (which was what the other question is asking about). My question is how can I convert them generically (since I have no control over what the regex being fed to the program looks like) so they can be consumed by the .NET Regex engine.

Note I now have a way to do this and would like to add my answer to my question, but since this is now marked as a duplicate I cannot add my answer.

我有一些测试数据正在传递到我正在移植到 C# 的 Java 库。我已经隔离了一个特定的问题案例作为示例。原始字符类采用 UTF-32 = \U0001BCA0-\U0001BCA3 格式，.NET 不容易使用它 - 我们得到一个 “无法识别的转义序列\U” 错误。

我尝试转换为 UTF-16，并且已确认 \U0001BCA0 的结果和 \U0001BCA3是应该预期的。

UTF-32      | Codepoint   | High Surrogate  | Low Surrogate  | UTF-16
---------------------------------------------------------------------------
0x0001BCA0  | 113824      | 55343           | 56480          | \uD82F\uDCA0
0x0001BCA3  | 113827      | 55343           | 56483          | \uD82F\uDCA3

但是，当我将字符串 "([\uD82F\uDCA0-\uD82F\uDCA3])" 传递给 Regex 类的构造函数时，我得到一个异常“[x-y]范围相反”。

虽然很明显字符是按正确的顺序指定的(它在 Java 中有效)，但我反向尝试并得到了相同的错误消息。

我还尝试将 UTF-32 字符从 \U0001BCA0-\U0001BCA3 更改为 \x01BCA0-\x01BCA3，但仍然出现异常 "[x-y ] 范围相反”。

那么，如何让 .NET Regex 类成功解析此字符范围？

NOTE: I tried changing the code to generate a regex character class that includes all of the characters instead of a range and it seems to work, but that is going to turn my regexes that are a few dozen characters into several thousand characters, which surely isn't going to do wonders for performance.

实际的正则表达式示例

同样，上面是一个更大字符串中失败的孤立示例。我正在寻找一种转换此类正则表达式的通用方法，以便它们可以由 .NET Regex 类进行解析。

"([\\u0000-\\u0009\\u000B\\u000C\\u000E-\\u001F\\u007F-\\u009F\\u00AD" +
"\\u061C\\u180E\\u200B\\u200E\\u200F\\u2028-\\u202E\\u2060-\\u206F\\uD800-" +
"\\uDFFF\\uFEFF\\uFFF0-\\uFFFB\\U0001BCA0-\\U0001BCA3\\U0001D173-" +
"\\U0001D17A\\U000E0000-\\U000E001F\\U000E0080-\\U000E00FF\\U000E01F0-\\U000E0FFF] " +
"| [\\u000D] | [\\u000A]) ()"

最佳答案

您假设 Regex 会将 "\uD82F\uDCA0" 识别为复合字符。事实并非如此，因为 .NET 中字符串的内部表示形式是 16 位 Unicode。

Unicode有code points的概念这是一个独立于物理表示的抽象概念。根据实际使用的编码，并非所有代码点都可以显示在一个字符中。在 UTF-8 中，这变得非常明显，因为所有高于 127 的代码点都需要两个或更多字符。在.NET中，字符是Unicode，这意味着planes大于 0 则需要组合字符。但正则表达式引擎仍将这些字符识别为单个字符。

长话短说:不要将字符组合视为代码点，而应将它们视为单个字符。所以在你的情况下，正则表达式将是:

using System;
using System.Text.RegularExpressions;

public class Program
{
    public static void Main()
    {
        var regex = new Regex("(\uD82F[\uDCA0-\uDCA3])");
        Console.WriteLine(regex.Match("\uD82F\uDCA2").Success);
    }
}

您可以try out the code here .

关于c# - 正则表达式未使用 Unicode 字符范围，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47605037/

25

4

0

文章推荐： visual-studio-2015 - 无法删除 VS 2015 安装项目中的文件

文章推荐： asp.net - BC30456 : CultureInfo is not a member of Globalization

文章推荐： javascript - Spreadsheets.values.get 但与其他工作表

EXCEL 列/范围 A 的平均值如果列/范围 B 或列/范围 C 等于否
我不能解决这个问题。和标题说的差不多…… 如果其他两个范围/列中有“否”，我如何获得范围或列的平均值？换句话说，我想计算 A 列的平均值，并且我有两列询问是/否问题(B 列和 C 列)。我只希望 B
python - 2to3 范围(...) -> 列表(范围(...))
我知道 python 2to3 将所有 xrange 更改为 range 我没有发现任何问题。我的问题是关于它如何将 range(...) 更改为 list(range(...)) :它是愚蠢的，只是
java - session 范围 Bean 不是 session 范围 Bean
我有一个 Primefaces JSF 项目，并且我的 Bean 注释有以下内容: @Named("reportTabBean") @SessionScoped public class Report
ruby-on-rails-3 - 我可以在 Rails 中将常见的 ActiveRecord 范围(范围)与模块一起使用吗？
在 rails3 中，我在模型中制作了相同的范围。例如 class Common ?" , at) } end 我想将公共(public)范围拆分为 lib 中的模块。所以我试试这个。 module
jsf - 在另一个 View 范围 bean 中注入(inject)一个 View 范围 bean 会导致它被重新创建
我需要在另一个 View 范围 bean 中使用保存在 View 范围 bean 中的一些数据。 @ManagedBean @ViewScoped public class Attivita impl
JavaScript 范围
为什么下面的代码输出4？谁能给我推荐一篇好文章来深入学习 javascript 范围。这段代码返回4，但我不明白为什么？ (function f(){ return f(); functio
JavaScript 范围
我有一个与此结构类似的脚本 $(function(){ var someVariable; function doSomething(){ //here } $('#som
Jquery 范围
我刚刚开始学习 Jquery，但这些示例对我帮助不大...... 现在，以下代码发生的情况是，我有 4 个表单，我使用每个表单的链接在它们之间进行切换。但我不知道如何在第一个函数中获取变量“postO
JavaScript 范围/this
为什么当我这样做时: function Dog(){ this.firstName = 'scrappy'; } Dog.firstName 未定义？但是我可以这样做: Dog.firstNa
Python解析文本文件的选定区域/范围
我想打印文本文件 text.txt 的选定部分，其中包含: tickme 1.1(no.3) lesson1-bases lesson2-advancedfurther para:using the
Javascript "this"范围
我正在编写一些 JavaScript 代码。我对这个关键字有点困惑。如何在 dataReceivedHandler 函数中访问 logger 变量？ MyClass: { logger: nu
vba - 范围 - 更改引用
我有这个代码: Public Sub test() Dim Tgt As Range Set Tgt = Range("A1") End Sub 我想更改当前为“A1”的 Tgt 的引
regex - 范围> = 0但小于1000的正则表达式
我正忙于此工作，以为我会把它放在我们那里。该数字必须是最多3个单位和最多5个小数位的数字，等等。有效的 999.99999 99.9 9 0.99999 0 无效的 -0.1 999.123456
spring - 未注释的参数覆盖@???范围
覆盖代码时: @Override public void open(ExecutionContext executionContext) { super.open(executio
PHP preg_match 范围
我想使用 preg_match 来匹配数字 1 - 21。我如何使用 preg_match 来做到这一点？如果数字大于 21，我不想匹配任何东西。 example preg_match('([0-9]
具有特定开始和无限结束的 Clojure 范围
根据docs range函数有四种形式: (range) 0 - 无穷大 (range end) 0 - 结束 (range start end)开始 - 结束 (range start end st
iPhone 范围 slider
我知道有一个UISlider，但是有人已经制作了RangeSlider(用两个拇指吗？)或者知道如何扩展 uislider？最佳答案我认为你不能直接扩展 UISlider，你可能需要扩展 UICo
要列出的 Python 范围
我正在尝试将范围转换为列表。 nums = [] for x in range (9000, 9004): nums.append(x) print nums 输出 [9000] [9
typescript - 如何使用TypeScript方法装饰器并保留常规的 `this`范围
请注意:此问题是由于在运行我的修饰方法时使用了GraphQL解析器。这意味着this的范围为undefined。但是，该问题的基础知识对于装饰者遇到问题的任何人都是有用的。这是我想使用的基本装饰器(
JavaScript 范围/代码迭代不同步
我正在尝试创建一个工具来从网页上抓取信息(是的，我有权限)。到目前为止，我一直在使用 Node.js 结合 requests 和 Cheerio 来拉取页面，然后根据 CSS 选择器查找信息。我已经

首页

博学

6Ren·AI

商城

c# - 正则表达式未使用 Unicode 字符范围

实际的正则表达式示例