.NET String 对象和无效的 Unicode 代码点-6ren

.NET String 对象和无效的 Unicode 代码点

转载作者：行者123 更新时间：2023-12-04 00:25:54

25

4

.NET String 对象是否可能包含无效的 Unicode 代码点？

如果是，这怎么会发生(以及我如何确定字符串是否具有这样的无效字符)？

最佳答案

虽然@DPenner 给出的回复非常好(我用它作为起点)，但我想提供一些其他细节。
除了孤立的代理之外，我认为这是无效字符串的明显标志，字符串总是有可能包含未分配的代码点，并且这种情况不能被 .NET Framework 视为错误，因为新字符总是添加到 Unicode 标准中，例如参见 Unicode http://en.wikipedia.org/wiki/Unicode#Versions 的版本.而且，为了让事情更清楚，这个电话Char.GetUnicodeCategory(Char.ConvertFromUtf32(0x1F01C), 0);返回 UnicodeCategory.OtherNotAssigned当使用 .NET 2.0 时，它会返回 UnicodeCategory.OtherSymbol使用 .NET 4.0 时。

除此之外，还有一个有趣的点:甚至 .NET 类库方法在如何处理 Unicode 非字符和未配对的代理字符方面也没有达成一致。例如:

未配对的代理字符

System.Text.Encoding.Unicode.GetBytes("\uDDDD"); - 返回 { 0xfd, 0xff} Replacement character 的编码，即认为数据无效。

"\uDDDD".Normalize(); - 引发异常并显示消息“在索引 0 处找到无效的 Unicode 代码点。”，即数据被视为无效。

非字符代码点

System.Text.Encoding.Unicode.GetBytes("\uFFFF"); - 返回 {0xff, 0xff} ，也就是说，数据被认为是有效的。

"\uFFFF".Normalize(); - 抛出消息“在索引 0 处发现无效 Unicode 代码点。”的异常，即数据被视为无效。

下面是一个将在字符串中搜索无效字符的方法:

/// <summary>
/// Searches invalid charachters (non-chars defined in Unicode standard and invalid surrogate pairs) in a string
/// </summary>
/// <param name="aString"> the string to search for invalid chars </param>
/// <returns>the index of the first bad char or -1 if no bad char is found</returns>
static int FindInvalidCharIndex(string aString)
{
    int ch;
    int chlow;

    for (int i = 0; i < aString.Length; i++)
    {
        ch = aString[i];
        if (ch < 0xD800) // char is up to first high surrogate
        {
            continue;
        }
        if (ch >= 0xD800 && ch <= 0xDBFF)
        {
            // found high surrogate -> check surrogate pair
            i++;
            if (i == aString.Length)
            {
                // last char is high surrogate, so it is missing its pair
                return i - 1;
            }

            chlow = aString[i];
            if (!(chlow >= 0xDC00 && chlow <= 0xDFFF))
            {
                // did not found a low surrogate after the high surrogate
                return i - 1;
            }

            // convert to UTF32 - like in Char.ConvertToUtf32(highSurrogate, lowSurrogate)
            ch = (ch - 0xD800) * 0x400 + (chlow - 0xDC00) + 0x10000;
            if (ch > 0x10FFFF)
            {
                // invalid Unicode code point - maximum excedeed
                return i;
            }
            if ((ch & 0xFFFE) == 0xFFFE)
            {
                // other non-char found
                return i;
            }
            // found a good surrogate pair
            continue;
        }

        if (ch >= 0xDC00 && ch <= 0xDFFF)
        {
            // unexpected low surrogate
            return i;
        }

        if (ch >= 0xFDD0 && ch <= 0xFDEF)
        {
            // non-chars are considered invalid by System.Text.Encoding.GetBytes() and String.Normalize()
            return i;
        }

        if ((ch & 0xFFFE) == 0xFFFE)
        {
            // other non-char found
            return i;
        }
    }

    return -1;
}

关于.NET String 对象和无效的 Unicode 代码点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27049478/

25

4

0

文章推荐： .net - 是否有任何 .NET ORM 使用构造函数 "properly"？

文章推荐： .net - 使用 TPL 时如何管理线程本地存储 (TLS)？

文章推荐： .net - 目标 .NET 4.0 但需要 .NET 4.5

文章推荐： .net - 如何在 LINQ to SQL 中撤消变更集

c++ - 编译错误。定义不匹配。无效(*)(无效*)
我有一个接受以下参数的函数: int setvalue(void (*)(void *)); 为了满足参数:void (*)(void *)，我创建了这样一个函数: static void *
c++ - 无效、无效、C 和 C++
我有以下代码: typedef void VOID; int f(void); int g(VOID); 在 C 中编译得很好(在 Fedora 10 上使用 gcc 4.3.2)。与 C++ 编译的
c - 无效(*foo)(无效): meaning of latest (void)
这个问题已经有答案了: Is f(void) deprecated in modern C and C++? [duplicate] (6 个回答) 已关闭 7 年前。 B.A.T.M.A.N./A.
asp.net-core - 无效 token - 观众 'empty' 无效
我在 ASP.NET Core 3.1 项目上有以下 Identity Server 4 配置: services .AddIdentityServer(y => { y.Events.R
azure - 委托(delegate) token 无效。指定的国家云 ID (1) 无效
我们有一个 O365 租户，一切都是开箱即用的。租户放置在德国云中，而不是全局 (office.de) 中。我们还开发了一个 Office 插件，使用 OAuth 2.0 授权访问共享点。首先，我们向
c# - 错误请求 - 无效 URL - HTTP 错误 400。请求 URL 无效
我有一个如下所示的路由 routes.MapRoute( name: "Default", url: "{controller}/{action}/{i
java - token 无效 - token 无效 : Invalid user for the two legged OAuth
我正在尝试使用 OAuth2.0 访问 google 文档。我已经从 Google API 控制台获取了客户端 ID 和 key 。但是当我运行这段代码时，我收到了异常。如果我遗漏了什么，有人可以建议
rust - 为什么创建const指针的集合对 `for val in a.iter()`无效，而对 `a.iter().map(|val| val)`无效？
此代码有效: let mut b: Vec = Vec::with_capacity(a.len()); for val in a.iter() { b.push(val); } 此代码不起作
azure - 输入参数 'scope' 无效。范围 https ://outlook. office365.com/EWS.AccessAsUser.All 无效
使用 client_credintials 授权类型请求 EWS oauth2 v2.0 的访问 token 时出现错误。 https://login.microsoftonline.com/tena
java - token 无效 - 无效 token : Cannot parse referred token string: Invalid gaia_data. Base64 token 上的 AuthSubToken 原型(prototype)
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序，该应用程序运行了 1 年多，没有任何问题，我什至在 Create Spreadsheet using Google
无效 Base64 字符的正则表达式
如何创建匹配所有无效 Base64 字符的正则表达式？我在堆栈上找到了 [^a-zA-Z0-9+/=\n\r].*$ 但是当我尝试时我得到了带有 - 符号的结果字符串.我根本不知道正则表达式，任何人
YAML 无效 - 可能是引号问题
我从 Gitlab CI/CD Pipelines 获得错误信息:yaml invalid。问题是由 .gitlab-ci.yml 脚本的第五行引起的: - 'ssh deployer@gita
spring - @Qualifier 无效
我有 3 个数据源，设置如下: @Configuration @Component public class DataSourceConfig { @Bean("foo") @Conf
mysql - updateOnDuplicate 无效
你好，我想用bulkCreate ex 插入数据: [ { "typeId": 5, "devEui": "0094E796CBFCFEF9", "application_name": "Pressu
iPhone UIApplicationExitsOnSuspend 无效
UIApplicationExitsOnSuspend 不会强制我的应用程序退出。我已经清理过目标、删除了应用程序、重建并重新安装了很多次。我确实需要退出我的应用程序。最佳答案您是否链接了 SD
iPhone 团队配置文件 - 无效
在 iPhone 配置门户上，显示我的 iPhone 团队配置配置文件无效。有一个“由 Xcode 管理”文本。 “续订”按钮被禁用。我该如何解决这个问题？谢谢最佳答案使用 Xcode 3.2.
symfony2 CSRF 无效
好的，所以今天我用我们的“实时”数据库中的新信息更新了我的数据库……从那时起，我的一个表格就出现了问题。如果您需要任何代码，请告诉我，我将对其进行编辑并发布所需的代码... 我有一个报告表格，其中有一
有人可以解释这是什么意思吗？无效(*func)()；
我有一个结构体，其中有一个元素表示为 void (*func)(); 我知道 void 指针通常用于函数指针，但我似乎无法定义该函数。我不断收到取消引用指向不完整类型的指针。我用谷歌搜索了一下但没有结
Coldfusion，oauth_signature 无效
我正在尝试使用 Coldfusion 9 从 ning 网络获取凭证，所以首先这是测试 api 的 curl 语法: curl -k https://external.ningapis.com/xn/
c - 为什么此引用不起作用/无效？
这个问题已经有答案了: Does C have references? (2 个回答) 已关闭 4 年前。我正在学习 C 语言引用，这是我的代码: #include int main(void)

首页

博学

6Ren·AI

商城

.NET String 对象和无效的 Unicode 代码点