gpt4 book ai didi

javascript - 在 javascript 中捕获表情符号

转载 作者:行者123 更新时间:2023-11-29 17:05:47 24 4
gpt4 key购买 nike

我必须用 javascript 编写一个模块,它可以检测表情符号并用带有图像链接的 div 标签替换每个表情符号。

(表情符号是 :) :-) 等形式的字符串)

问题是我有数百个,尝试编写一个正则表达式来捕获所有这些并不是一个好主意。

有没有办法做到这一点,因为我有一个散列图,其中键是表情符号字符串,值是十六进制值。 (所有表情都在一个范围内)

谢谢!

已编辑:所以也许我陈述问题的方式并不清楚。假设您有一本包含 100000 个单词的字典,每个单词包含 4-5 个字符。和一行流,每行包含 100 - 150 个字符。你会如何找到这些行中的单词?

最佳答案

不幸的是,Javascript 字符串是16 位 无符号整数代码点的序列,通常表示Unicode 字符串的UTF-16 编码。因此,BMP 之外的 Unicode 字符(从 U+10000 开始的代码点)表示为代理对,每个代理对都是两个“字符”长。这在正则表达式中是可见的;如果要匹配,比如U+1F623 ("PERSEVERING FACE"),则需要匹配\uD83D\uDE23

虽然很烦人,但这并非完全不切实际。范围仍然很容易匹配。例如,假设您认为表情符号在 U+1F300...U+1F64F 范围内,这是 http://www.unicode.org/Public/UNIDATA/EmojiSources.txt 处的表情符号转录数据中列出的大部分但不是全部字符。 ,那么你可以使用正则表达式:

/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/

要计算这些代码,您需要了解从非 BMP Unicode 代码点到两个代理字符的映射。没那么复杂 :) 首先,从 Unicode 代码点中减去 U+10000(UTF-16 的设计者选择避免在已经适合 16 位的代码点上浪费代码空间)。这给您留下了一个 20 位数字,因为最大的有效 Unicode 代码点是 U+10FFFF。现在,您需要将该 20 位数字分成两个 10 位 block 。高10位加到U+D800上形成第一个代理码,低10位加到U+DC00上形成第二个代理码代理人。

使用 PERSEVERING FACE 示例:

U+1F623 => 0F623       (subtract 0x10000)
=> 0000 1111 0110 0010 0011 (in binary)
=> 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
=> 03D, 223 (back to hex)
=> D83D, DE23 (add D800 to first and DC00 to second)

如果您有 bashiconv 实用程序,让您的计算机进行这些计算的“简单”方法是:

printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'

(我将其分成两行显示,但您可以将其作为一行输入。您可以将任意多的代码放入传递给 printf 的字符串中。)

关于javascript - 在 javascript 中捕获表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24878131/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com