- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个文件,其中一行包含此字符串:“Ávila”
我想得到这个输出:“ávila”。
问题在于awk的函数tolower仅在字符串不以重音开头时才起作用,而我必须使用awk。
例如,如果我执行 awk 'BEGIN { print tolower("Ávila") }' ,那么我会得到 "Ávila" 而不是 "ávila",这就是我所期望的。
但是如果我执行awk 'BEGIN { print tolower("Castellón") }',那么我会得到"castellón"
最佳答案
对于给定的awk
要与非 ASCII 字符(外文字母)正常工作,它必须尊重事件区域设置的字符编码,如(有效)LC_CTYPE
中所反射(reflect)的那样。设置(运行 locale
查看它)。
如今,大多数语言环境都使用 UTF-8 编码,这是一种多字节按需编码,在 ASCII 范围内为单字节,并使用 2 到 4 个字节来表示所有其他 Unicode 字符。
因此,对于给定的awk
要实现识别非 ASCII(重音、外文)字母,它必须能够将多个字节识别为单个字符。
主要awk
实现,
gawk
),某些 Linux 发行版上的默认设置awk
,也用于 OS Xmawk
),基于 Debian 的 Linux 发行版(例如 Ubuntu)的默认设置只有 GNU Awk 可以正确处理 UTF8 编码的字符(如果在语言环境中指定的话,可能还有任何其他编码):
$ echo ÁvilA | gawk '{print tolower($0)}'
ávila # both Á and A lowercased
相反,如果您明确希望将字符处理仅限于 ASCII,请在前面加上 LC_CTYPE=C
:
$ echo ÁvilA | LC_CTYPE=C gawk '{print tolower($0)}'
Ávila # only ASCII char. A lowercased
实用建议:
确定您的默认实现 awk
是,运行awk --version
.
-W version
打印版本信息。 ,但该错误消息将包含单词 mawk
.如果可能的话,安装并使用 GNU Awk(并可选择将其设置为默认值 awk
);它适用于大多数类 Unix 平台;例如:
sudo apt-get install gawk
brew install gawk
.如果您必须使用 BSD Awk 或 Mawk,请使用上面的 LC_CTYPE=C
方法来确保多字节 UTF-8 字符至少通过而不进行修改。[1],但是外来字母不会被识别为字母(因此在本例中不会被小写)。
[1] OS X 上的 BSD Awk 和 Mawk(奇怪的是后者在 Linux 上没有)按如下方式处理 UTF-8 编码字符:
32
添加到原始字节值以获得对应的小写字母。在本例中,这意味着:
Á
是 Unicode 代码点 U+00C1
,其 UTF-8 编码是2 字节序列:0xC3 0x81
.
0xC3
:删除高位( 0xC3 & 0x7F
)会产生 0x43
,被解释为 ASCII 字母 C
,和32
( 0x20
) 因此被添加到原始值,产生 0xE3
(0xC3 + 0x20
)。
0x81
:删除高位( 0x81 & 0x7F
)会产生 0x1
,它不在 ASCII 大写字母范围内( 65-90
、 0x41-0x5a
),因此该字节保持原样。
实际上,第一个字节是从 0xC3
修改的。至0xE3
,而第二个字节保持不变;自 0xC3 0x81
不是正确的 UTF-8 编码字符,终端将打印 ?
而是发出信号。
关于awk 降低以重音符号开头的字符串 - 支持外来字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37033989/
给定一个字符串,例如 s="##$$$#",我如何找到索引之前的“#”符号数等于“”数的索引$"符号在索引之后? 示例:如果 s="##$$$#",则输出将为 2。 解释:在索引 2 之前我们有 2
在本教程中,您将借助示例了解 JavaScript 符号。 JavaScript 符号 JavaScript ES6 引入了一种新的原始数据类型,称为 Symbol(符号)。符号是不可变的(不能更改)
在“函数编程的工艺”一书中,符号 '>.>' 将函数连接在一起,与 '.' 的方向相反。但是当我使用 ghci 实现它时,它显示了超出范围的错误 '>.>'。为什么?它是不再使用的旧符号吗? 最佳答案
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我需要从向量中删除 \"。这是我的数据: data <- c("\"https://click.linksynergy.com/link?id=RUxZriH*PWc&offerid=323058.1
我在 Nginx 配置中使用正则表达式来捕获文件 URL,但如果文件 URL 包含 # 符号,正则表达式模式将不会捕获它。 这里是nginx的配置部分。 location ~ ^/p/(?[\w\-=
如何使 & 符号在此图表的第一组条形/列下正确显示: http://jsfiddle.net/VxbrK/2/ 应该是“Apples & Oranges”而不是“Apples & Oranges”。
**在verilog中是什么意思? 我为测试台提供了以下逻辑 localparam NUM_INPUT_BITS = 1; localparam NUM_OUTPUT_BITS
我有一个使用正则表达式来验证电子邮件地址的方法。 public String searchFormail(String searchWord) { Pattern pattern = Patt
我想将一个字符串拆分为数字部分和文本/符号部分我当前的代码不包含负数或小数,并且表现得很奇怪,在输出的末尾添加了一个空列表元素 import re mystring = 'AD%5(6ag 0.33-
我有一些代码需要从数组中选择一个随机字符串,但它一直返回单个字母或数字。如何解决这个问题? var name = ["Yayek", "Vozarut", "Gezex",
我刚开始使用 Python,我在考虑应该使用哪种表示法。我读过 PEP 8关于 Python 符号的指南,我同意那里的大多数内容,除了函数名称(我更喜欢混合大小写风格)。 在 C++ 中,我使用匈牙利
在用 C# 编写代码时,我错误地在 if 语句中的变量前添加了一个符号(而不是感叹号)。 bool b = false; if (@b) { } 我很惊讶它编译成功,没有任何错误。 我想知道:上面的代
本文实例为大家分享了特殊字符替换电话号码中某一部分的方法,ios利用-号替换电话号码中间四位,供大家参考,具体内容如下 1、效果图 2、代码 rootviewcontroll
当我使用“x”和“z”作为符号时,这段代码没有问题: from sympy import * x, z = symbols('x z') y = -6*x**2 + 2*x*z**0.5 + 50*x
我需要从文本中删除标点符号: data <- "Type the command AT&W enter. in order to save the new protocol on modem;"
我有几个数字是 numeric 类。下面的例子。 df = c(12974,12412,124124,124124,34543,4576547,32235) 现在我想在每个数字前添加 '$' 符号而不
我有一个 highcharts 图例,其中符号以不同的大小显示,因为它们在实际图表中的大小不同。不幸的是,当数据点的大小增加时,它们也会在图例中增加。无论数据点大小如何,我都希望图例符号保持相同的大小
我需要使用包含平均值+-SD的标题。到目前为止,我只能得到以下信息: "Mean +- SD or N (%)" [1] "Mean +- SD or N (%)" 如何直接使用“+-”符号?您知道一
使用 XSLT 和 XPath 1.0,我有一个要转义的字符串以用于 URL,例如: one word & another 因此,描述元素的 text() 应该进行 URL 转义。 我该怎么做
我是一名优秀的程序员,十分优秀!