delphi - 从 Delphi 字符串中检测和检索代码点和代理项-6ren

delphi - 从 Delphi 字符串中检测和检索代码点和代理项

转载作者：行者123 更新时间：2023-12-03 14:41:15

28

4

我试图更好地理解 Delphi 中的代理对和 Unicode 实现。

如果我在 Delphi 中对 Unicode 字符串 S := 'Ĥà̲V̂e' 调用 length()，我将返回 8。

这是因为各个字符 [Ĥ]、[à̲]、[V̂] 和 [e] 的长度分别为 2、3、2 和 1。这是因为 Ĥ 有一个代理项，à̲ 有两个附加代理项，V̂ 有一个代理项，而 e 没有代理项。

如果我想返回字符串中的第二个元素(包括所有代理项 [à̲])，我该怎么做？我知道我需要对各个字节进行某种测试。我使用例程运行了一些测试

function GetFirstCodepointSize(const S: UTF8String): Integer;

在 this SO Question 中引用。

但得到了一些不寻常的结果，例如，这里有一些不同代码点的长度和大小。 下面是我如何生成这些表格的片段。

...
UTFCRUDResultStrings.add('INPUT: '+#9#9+ DATA +#9#9+ 'GetFirstCodePointSize = ' +intToStr(GetFirstCodepointSize(DATA))
+#9#9+ 'Length =' + intToStr(length(DATA)));
...

第一组:这对我来说很有意义，每个代码点大小加倍，但每个代码点都是一个字符，Delphi 给我的长度仅为 1，完美。

INPUT:      ď       GetFirstCodePointSize = 2       Length =1
INPUT:      ơ       GetFirstCodePointSize = 2       Length =1
INPUT:      ǥ       GetFirstCodePointSize = 2       Length =1

第二组:在我看来，长度和代码点最初看起来像是相反的？我猜测其原因是字符+代理项被单独处理，因此第一个代码点大小是“H”的，即1，但长度返回“H”加“^”的长度。

INPUT:      Ĥ      GetFirstCodePointSize = 1       Length =2
INPUT:      à̲     GetFirstCodePointSize = 1       Length =3
INPUT:      V̂      GetFirstCodePointSize = 1       Length =2
INPUT:      e       GetFirstCodePointSize = 1       Length =1

一些额外的测试...

INPUT:      ¼       GetFirstCodePointSize = 2       Length =1
INPUT:      ₧       GetFirstCodePointSize = 3       Length =1
INPUT:      𤭢      GetFirstCodePointSize = 4       Length =2
INPUT:      ß       GetFirstCodePointSize = 2       Length =1
INPUT:      𨳒      GetFirstCodePointSize = 4       Length =2

Delphi 中是否有可靠的方法来确定 Unicode 字符串中的元素的开始和结束位置？

我知道我使用“元素”一词的术语可能不对，但我认为代码点和字符也不正确，特别是考虑到一个元素的代码点大小可能为 3，但长度仅为 1。

最佳答案

I am trying to better understand surrogate pairs and Unicode implementation in Delphi.

让我们先了解一些术语。

由 Unicode 定义的每个“字符”(称为字素)都分配有一个唯一的代码点。

在 Unicode 转换格式 (UTF) 编码中 - UTF-7、UTF-8、UTF-16 和 UTF-32 - 每个代码点都被编码为代码单元<的序列/强>。每个代码单元的大小由编码决定 - UTF-7 为 7 位，UTF-8 为 8 位，UTF-16 为 16 位，UTF-32 为 32 位(因此得名)。

在 Delphi 2009 及更高版本中，String 是 UnicodeString 的别名，Char 是 WideChar 的别名>。 WideChar 是 16 位。 UnicodeString 保存一个 UTF-16 编码的字符串(在早期版本的 Delphi 中，等效的字符串类型是 WideString)，并且每个 WideChar 是一个 UTF-16 代码单元。

在 UTF-16 中，可以使用 1 或 2 个代码单元对代码点进行编码。 1 个代码单元可以对基本多语言平面 (BMP) 范围内的代码点值进行编码 - $0000 到 $FFFF(含)。更高的代码点需要 2 个代码单元，也称为代理对。

If I call length() on the Unicode string S := 'Ĥà̲V̂e' in Delphi, I will get back, 8.

This is because the lengths of the individual characters [Ĥ],[à̲],[V̂], and [e] are 2, 3, 2, and 1 respectively.

This is because Ĥ has a surrogate, à̲ has two additional surrogates, V̂ has a surrogate and e has no surrogates.

是的，UTF-16 UnicodeString 中有 8 个 WideChar 元素(代码单元)。您所说的“替代品”实际上称为“组合标记”。每个组合标记都是其自己唯一的代码点，因此也是其自己的代码单元序列。

If I wanted to return the second element in the string including all surrogates, [à̲], how would I do that?

您必须从 UnicodeString 的开头开始分析每个 WideChar，直到找到一个不是附加到前一个 WideChar< 的组合标记为止。/。在 Windows 上，最简单的方法是使用 CharNextW()函数，例如:

var S: String; P: PChar; begin S := 'Ĥà̲V̂e'; P := CharNext(PChar(S)); // returns a pointer to à̲ end;
Delphi RTL 没有等效的函数。您可能需要手动编写一个库，或者使用第三方库。 RTL 确实有一个 StrNextChar() 函数，但它只处理 UTF-16 代理，而不是组合标记(CharNext() 处理两者)。因此，您可以使用 StrNextChar() 扫描 UnicodeString 中的每个代码点，但您必须查看每个代码点才能知道它是否是组合标记，例如:

uses Character; function MyCharNext(P: PChar): PChar; begin if (P <> nil) and (P^ <> #0) then begin Result := StrNextChar(P); while GetUnicodeCategory(Result^) = ucCombiningMark do Result := StrNextChar(Result); end else begin Result := nil; end; end; var S: String; P: PChar; begin S := 'Ĥà̲V̂e'; P := MyCharNext(PChar(S)); // should return a pointer to à̲ end;

I know I would need to do some sort of testing of the individual bytes.

不是字节，而是它们在解码时表示的代码点。

I ran some tests using the routine

function GetFirstCodepointSize(const S: UTF8String): Integer

仔细观察该函数签名。看到参数类型了吗？它是 UTF-8 字符串，而不是 UTF-16 字符串。这甚至在您获得该功能的答案中有所说明:

Here is an example how to parse UTF8 string

UTF-8 和 UTF-16 是非常不同的编码，因此具有不同的语义。您不能使用 UTF-8 语义来处理 UTF-16 字符串，反之亦然。

Is there a reliable way in Delphi to determine where an element in a Unicode String starts and ends?

不直接。您必须从头开始解析字符串，根据需要跳过元素，直到到达所需的元素。请记住，每个代码点可以编码为 1 或 2 个代码单元元素，并且每个逻辑字形可以使用多个代码点(以及多个代码单元序列)进行编码。

I know my terminology using the word element may be off, but I don't think codepoint and character are right either, particularly given that one element may have a codepoint size of 3, but have a length of only one.

1 个字形由 1+ 个代码点组成，每个代码点被编码为 1+ 个代码单元。

Could someone implement the following function?

function GetElementAtIndex(S: String; StrIdx : Integer): String;

尝试这样的事情:

uses SysUtils, Character; function MyCharNext(P: PChar): PChar; begin Result := P; if Result <> nil then begin Result := StrNextChar(Result); while GetUnicodeCategory(Result^) = ucCombiningMark do Result := StrNextChar(Result); end; end; function GetElementAtIndex(S: String; StrIdx : Integer): String; var pStart, pEnd: PChar; begin Result := ''; if (S = '') or (StrIdx < 0) then Exit; pStart := PChar(S); while StrIdx > 1 do begin pStart := MyCharNext(pStart); if pStart^ = #0 then Exit; Dec(StrIdx); end; pEnd := MyCharNext(pStart); {$POINTERMATH ON} SetString(Result, pStart, pEnd-pStart); end;

关于delphi - 从 Delphi 字符串中检测和检索代码点和代理项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32020126/

28

4

0

文章推荐： delphi - 在运行时创建接口(interface)实现者实例

文章推荐： delphi - Delphi 控件中的 Ctrl+Backspace

android - 如何在 Windows 上使用最新的 Android 模拟器配置 HTTP 代理，如 Fiddler2 或 Charles Web 代理？
我完全不同意配置代理来检查我正在开发的应用程序的 HTTP(S) 流量。我试过运行 Fiddler2 和 Charles Web Proxy，它们都在 127.0.0.1:888 上运行，并使用以下参
amazon-web-services - 在我的 EC2 实例上安装 SSM 代理，以便在没有 SSH 或 key 对的情况下安装 Inspector 代理
我有一个 AWS 环境，其中有几个实例没有预安装 SSM 代理，也没有 key 对，有没有办法在不使用 SSH 登录我的实例的情况下安装 SSM 代理？在此先感谢您的帮助! 最佳答案没有。这是一个
JavaScript 代理
在本教程中，您将借助示例了解 JavaScript 代理。在 JavaScript 中，proxy（代理对象）用于包装对象并将各种操作重新定义到对象中，例如读取、插入、验证等。代理允许您向对
去大文件下载并传递给客户端(代理)
我有一个基于 Martini 的小型应用程序，但遇到了一个我无法解决的问题。我想添加一个应用程序功能，允许用户从第三个服务器获取文件，并在 HTTP header 中进行一些更改。某种代理。这些文件
设计模式：代理、装饰和适配器模式的区别
结构对比讲实话，博主当初学习完整设计模式时，这三种设计模式单独摘哪一种都是十分清晰和明确的，但是随着模式种类的增加，在实际使用的时候竟然会出现恍惚，例如读开源代码时，遇到不以模式命名规范的代码时，
nginx 代理 ELK
我正在尝试代理运行 ELK 的后端服务器。这是我的环境信息: root@proxy:~# root@proxy:~# cat /etc/*release DISTRIB_ID=Ubuntu DISTR
Java 代理、检测和数组创建
我需要为我的 java 应用程序编写一个代理，它在每个数组创建时执行一些特定的操作。到目前为止，我无法找到在此事件上运行我的代码的任何方法。 java.lang.instrument.ClassFil
PHP 代理 - 基本说明
PHP 代理如何工作？我希望制作一个类似于其他 php 代理的小脚本但是它实际上是如何工作的呢？最佳答案我正在考虑一个 PHP 代理，用于绕过 AJAX Sane Origin 策略。如果您需
proxy - Electron 代理
我有一个 Electron 应用程序，试图通过该应用程序从同一网络调用url，但是出于安全考虑，我考虑了使用代理的想法。 function createWindow () { const mai
c# - 内部路由/代理
我有 1 台计算机，安装了 1 个网卡。网卡有 10 个 IP 地址分配给它。我在那里运行了一个 Windows 桌面应用程序。该应用程序基本上是一个调用 1 个特定网站的网络浏览器。我想要实现的是
Java 代理 Burp
我想将 Burp 配置为我的 java 代码的代理，以查看请求和响应。Burp 作为 Web 浏览器之间的代理可以很好地工作，但它不适用于 Java 应用程序。我已经在代码中添加了这样的行: Web
java - 在拦截方法上配置拦截器(代理)
据我所知，在Spring AOP中，当我们想要拦截某些方法调用时，我们会配置一个具有与所需方法调用相匹配的切入点配置的Aspect。也就是说，我们在Aspect端配置拦截。有没有一种方法可以完全从相
Java 代理 - 获取传出请求
这可能是一个常见问题，但是:我有一个正在向发出请求的应用程序elldmess.cz/api/... 但是这个api已经没有了。现在我想要“东西”，即 catch 对 elldmess.cz/api
使用套接字的 Android 代理
我正在尝试在 Android 中创建代理，但我必须使用套接字。我已经阅读了很多教程并提出了以下代码。不幸的是，浏览器似乎没有获得任何数据，一段时间后它显示标准网页，说网页不可用。可能是什么原因？感谢您
使用套接字的 Java 代理
我在使用此代码时遇到了一些问题，具体取决于我使用的浏览器，有些 URL 在 IE 中显示正确，但在 Firefox 中显示为纯文本(例如 www.microsoft.es 在 IE 上看起来不错，但在
Python urllib 代理
我正在尝试通过 urllib 获取一些 url 并通过我的代理进行 Mechanize 。使用 mechanize 我尝试以下操作: from mechanize import Browser im
Python https 代理
我安装了一个嵌入式设备(光伏转换器)，它提供了一个正常的 http Web 界面(信息和设置)。该转换器具有用户身份验证，但只能通过 http 进行。出于安全考虑，我不想将服务器直接发布到互联网上。在
ruby MITM 代理
我正在搜索有关如何使用支持 HTTPS 的 Ruby 编写代理的一些示例。我有一个使用 Webricks HTTPProxyServer 实现的简单代理，但我注意到，HTTPS 流量只是隧道传输(它应
SSL 代理/解密？
我的一位客户刚收到他选择的开发商订购的软件，让我看一下并准备托管程序。这是一个 Java (jar) 应用程序，到目前为止一切顺利......但我看到了一些可疑的东西，软件每隔 60 分钟左右连接到
c#- HTTPS 代理
我试图在 C# 中创建一个 HTTPS 代理服务器。这里有人发布了解决方案: string host = "encrypted.google.com"; string

首页

博学

6Ren·AI

商城

delphi - 从 Delphi 字符串中检测和检索代码点和代理项