- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种方法来规范化 unicode 输入文本,其中包括打印连字,例如
# Things to replace, for instance:
U+FB00 (ff): ff
U+FB01 (fi): fi
U+FB02 (fl): fl
U+FB03 (ffi): ffi
U+FB04 (ffl): ffl
U+FB05 (ſt): st
U+FB06 (st): st
我想保留所有变音符号、标点符号和其他可以分解但不是打印连字的标记。
例如,我想保留商标符号或省略号。
# Things to keep, for instance:
U+2122 (™): TM
U+2026 (…): ...
U+2120 (℠): SM
U+2121 (℡): TEL
我搜索了一个解决方案,找到了一些相关的答案:
是否有特定于 Ruby 的方法?
最佳答案
我目前的 hackish 解决方案:
def self.remove_ligatures input
@@ligature_char_regex ||= /[#{ligature_chars.join('')}]/
input.gsub(@@ligature_char_regex) { |c|
c.unicode_normalize(:nfkc)
}
end
这可行,但依赖于手动定义的一长串字符(见下文),并且在性能方面可能不是最快的方法。
# Return the list of all characters which decompose
# into multiple ascii/accented characters
#
# Manually commented out those that are not typographic
# ligatures such as Trademark, Medical Doctor, CD
#
# List from: https://superuser.com/questions/669130/double-latin-letters-in-unicode-ligatures
def self.ligature_chars
return [
"\u0132", # (IJ): IJ
"\u0133", # (ij): ij
"\u01C7", # (LJ): LJ
"\u01C8", # (Lj): Lj
"\u01C9", # (lj): lj
"\u01CA", # (NJ): NJ
"\u01CB", # (Nj): Nj
"\u01CC", # (nj): nj
"\u01F1", # (DZ): DZ
"\u01F2", # (Dz): Dz
"\u01F3", # (dz): dz
"\u20A8", # (₨): Rs
"\u2116", # (№): No
# "\u2120", # (℠): SM
# "\u2121", # (℡): TEL
# "\u2122", # (™): TM
"\u213B", # (℻): FAX
"\u2161", # (Ⅱ): II
"\u2162", # (Ⅲ): III
"\u2163", # (Ⅳ): IV
"\u2165", # (Ⅵ): VI
"\u2166", # (Ⅶ): VII
"\u2167", # (Ⅷ): VIII
"\u2168", # (Ⅸ): IX
"\u216A", # (Ⅺ): XI
"\u216B", # (Ⅻ): XII
"\u2171", # (ⅱ): ii
"\u2172", # (ⅲ): iii
"\u2173", # (ⅳ): iv
"\u2175", # (ⅵ): vi
"\u2176", # (ⅶ): vii
"\u2177", # (ⅷ): viii
"\u2178", # (ⅸ): ix
"\u217A", # (ⅺ): xi
"\u217B", # (ⅻ): xii
"\u3250", # (㉐): PTE
"\u32CC", # (㋌): Hg
"\u32CD", # (㋍): erg
"\u32CE", # (㋎): eV
"\u32CF", # (㋏): LTD
"\u3371", # (㍱): hPa
"\u3372", # (㍲): da
"\u3373", # (㍳): AU
"\u3374", # (㍴): bar
"\u3375", # (㍵): oV
"\u3376", # (㍶): pc
"\u3377", # (㍷): dm
"\u337A", # (㍺): IU
"\u3380", # (㎀): pA
"\u3381", # (㎁): nA
"\u3383", # (㎃): mA
"\u3384", # (㎄): kA
"\u3385", # (㎅): KB
"\u3386", # (㎆): MB
"\u3387", # (㎇): GB
"\u3388", # (㎈): cal
"\u3389", # (㎉): kcal
"\u338A", # (㎊): pF
"\u338B", # (㎋): nF
"\u338E", # (㎎): mg
"\u338F", # (㎏): kg
"\u3390", # (㎐): Hz
"\u3391", # (㎑): kHz
"\u3392", # (㎒): MHz
"\u3393", # (㎓): GHz
"\u3394", # (㎔): THz
"\u3396", # (㎖): ml
"\u3397", # (㎗): dl
"\u3398", # (㎘): kl
"\u3399", # (㎙): fm
"\u339A", # (㎚): nm
"\u339C", # (㎜): mm
"\u339D", # (㎝): cm
"\u339E", # (㎞): km
"\u33A9", # (㎩): Pa
"\u33AA", # (㎪): kPa
"\u33AB", # (㎫): MPa
"\u33AC", # (㎬): GPa
"\u33AD", # (㎭): rad
"\u33B0", # (㎰): ps
"\u33B1", # (㎱): ns
"\u33B3", # (㎳): ms
"\u33B4", # (㎴): pV
"\u33B5", # (㎵): nV
"\u33B7", # (㎷): mV
"\u33B8", # (㎸): kV
"\u33B9", # (㎹): MV
"\u33BA", # (㎺): pW
"\u33BB", # (㎻): nW
"\u33BD", # (㎽): mW
"\u33BE", # (㎾): kW
"\u33BF", # (㎿): MW
"\u33C3", # (㏃): Bq
"\u33C4", # (㏄): cc
"\u33C5", # (㏅): cd
"\u33C8", # (㏈): dB
"\u33C9", # (㏉): Gy
"\u33CA", # (㏊): ha
"\u33CB", # (㏋): HP
"\u33CC", # (㏌): in
"\u33CD", # (㏍): KK
"\u33CE", # (㏎): KM
"\u33CF", # (㏏): kt
"\u33D0", # (㏐): lm
"\u33D1", # (㏑): ln
"\u33D2", # (㏒): log
"\u33D3", # (㏓): lx
"\u33D4", # (㏔): mb
"\u33D5", # (㏕): mil
"\u33D6", # (㏖): mol
"\u33D7", # (㏗): PH
"\u33D9", # (㏙): PPM
"\u33DA", # (㏚): PR
"\u33DB", # (㏛): sr
"\u33DC", # (㏜): Sv
"\u33DD", # (㏝): Wb
"\u33FF", # (㏿): gal
"\uFB00", # (ff): ff
"\uFB01", # (fi): fi
"\uFB02", # (fl): fl
"\uFB03", # (ffi): ffi
"\uFB04", # (ffl): ffl
"\uFB05", # (ſt): st
"\uFB06", # (st): st
# "\u1F12D", # (🄭): CD
# "\u1F12E", # (🄮): WZ
# "\u1F14A", # (🅊): HV
# "\u1F14B", # (🅋): MV
# "\u1F14C", # (🅌): SD
# "\u1F14D", # (🅍): SS
# "\u1F14E", # (🅎): PPV
# "\u1F14F", # (🅏): WC
# "\u1F16A", # (🅪): MC
# "\u1F16B", # (🅫): MD
"\u1F19", #0 (🆐): DJ
"\u01C4", # (DŽ): DŽ
"\u01C5", # (Dž): Dž
"\u01C6", # (dž): dž
]
end
关于Ruby:如何仅从 unicode 文本中分解打印连字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70778295/
我正在维护一些 Java 代码,我目前正在将它们转换为 C#。 Java 代码是这样做的: sendString(somedata + '\000'); 在 C# 中,我正在尝试做同样的事情: sen
如何确定函数中传递的参数是字符串还是字符(不确定如何正确调用它)文字? 我的函数(不正确): void check(const char* str) { // some code here }
我真的不知道如何准确地提出这个问题,但我希望标题已经说明了这一点。 我正在寻找一种方法(一个框架/库),它提供了执行 String.contains() 函数的能力,该函数告诉我给定的字符串是否与搜索
我正在尝试编写一些读取 Lambda 表达式并输出 beta 缩减版本的东西。 Lambda 的类型如下:\variable -> expression,应用程序的形式为 (表达式) (表达式)。因此
StackOverflow 上的第 1 篇文章,如果我没能把它做好,我深表歉意。我陷入了一个愚蠢的练习,我需要制作一个“刽子手游戏”,我尝试从“.txt”文件中读取单词,然后我得到了我的加密函数,它将
我想在 Groovy 中测试我的 Java 自定义注释,但由于字符问题而未能成功。 Groovyc: Expected 'a' to be an inline constant of type cha
当我尝试在单击按钮期间运行 javascript location.href 时,出现以下错误“字 rune 字中的字符过多”。 最佳答案 这应该使用 OnClientClick相反? 您可能还想停
我想要类似的东西: let a = ["v".utf8[0], 1, 2] 我想到的最接近的是: let a = [0x76, 1, 2] 和 "v".data(using: String.Encod
有没有办法在 MySQL 中指定 Unicode 字 rune 字? 我想用 Ascii 字符替换 Unicode 字符,如下所示: Update MyTbl Set MyFld = Replace(
阅读 PNG 规范后,我有点惊讶。我读过字 rune 字应该用像 0x41 这样的二进制值进行硬编码,而不是在(程序员友好的)'A' 中。问题似乎是在具有不同底层字符集的不同系统上编译期间字 rune
考虑一个具有 UTF-8 执行字符集的 C++11 编译器(并且符合要求 char 类型为有符号 8 位字节的 x86-64 ABI) . 字母 Ä(元音变音)具有 0xC4 的 unicode 代码
为什么即使有 UTF-8 字符串文字,C11 或 C++11 中也没有 UTF-8 字 rune 字?我知道,一般来说,字 rune 字表示单个 ASCII 字符,它与单字节 UTF-8 代码点相同,
我怎样才能用 Jade 做到这一点? how would I do this 我几乎可以做任何事情,除了引入一个 span 中间句子。 最佳答案 h3.blur. how would I do t
这似乎是一个非常简单的问题,但我只是想澄清我的疑问。我正在查看其他开发人员编写的代码。有一些涉及 float 的计算。 示例:Float fNotAvlbl = new Float(-99); 他为什
我想知道第 3 行“if dec:”中的“dec”是什么意思 1 def dec2bin(dec): 2 result='' 3 if dec:
我试图在字符串中查找不包含任何“a”字符的单词。我写了下面的代码,但它不起作用。我怎么能对正则表达式说“不包括”?我不能用“^”符号表示“不是”吗? import re string2 = "asfd
这个问题在这里已经有了答案: Is floating point math broken? (31 个答案) Is floating point arbitrary precision availa
我正在创建一个时尚的文本应用程序,但在某些地方出现错误(“字 rune 字中的字符太多”)。我只写了一个字母,但是当我粘贴它时,它会转换成许多这样的字母:“\uD83C\uDD89”,原始字母是“🆉
我正在尝试检查用户是否在文本框中输入了一个数字值,是否接受了小数位。非常感谢任何帮助。 Private Sub textbox1_AfterUpdate() If IsNumeric(textbox1
我知道一个 Byte 是 8 位,但其他的代表什么?我正在参加一个使用摩托罗拉 68k 架构的汇编类(class),我对目前的词汇感到困惑。 最佳答案 如 operator's manual for
我是一名优秀的程序员,十分优秀!