regex - 如何使用 sed 表达式用单宽替换双宽字符-6ren

regex - 如何使用 sed 表达式用单宽替换双宽字符

转载作者：行者123 更新时间：2023-12-02 20:47:13

26

4

我想使用 sed 表达式将文件中的某些双宽字符替换为它们的单宽等效字符。这并不像预期的那样工作，但表达了我想要做的事情(这是在 bash 脚本中):我已经将字母数字范围与我能想到的其他一些混合在一起，不确定是否需要将其分成基于 if 范围等的两个不同的 -e 参数。
sed -e 's,[０-９ａ-ｚＡ-Ｚ（）【】－一],[0-9a-zA-Z\[\]\-\-],g' ${file} > ${file}.cleaned
这些文件是 tsv(制表符分隔值)文本文件。
根据 file 命令，类型为:UTF-8 Unicode text, with CRLF line terminators 或(在另一种情况下)UTF-8 Unicode text, with no line terminators
样本输入:

Part Number
123-９56-AＡ
343-213-【E】
XTE-898一（5）

样本输出:

Part Number
123-956-AA
343-213-[E]
XTE-898-(5)

我的系统是在 Docker 容器中运行的 Ubuntu16.04，该容器是从我们的基础镜像构建的，该基础镜像是从 phusion/passenger-ruby23:0.9.19 构建的，它具有 ubuntu:16.04 的基础镜像(最终到基础)，shell 是 GNU bash, version 4.3.46(1)-release (x86_64-pc-linux-gnu) ，sed 版本是 sed (GNU sed) 4.2.2 并且 locale 命令的结果是:

LANG=
LANGUAGE=
LC_CTYPE="POSIX"
LC_NUMERIC="POSIX"
LC_TIME="POSIX"
LC_COLLATE="POSIX"
LC_MONETARY="POSIX"
LC_MESSAGES="POSIX"
LC_PAPER="POSIX"
LC_NAME="POSIX"
LC_ADDRESS="POSIX"
LC_TELEPHONE="POSIX"
LC_MEASUREMENT="POSIX"
LC_IDENTIFICATION="POSIX"
LC_ALL=

更新:

选择的解决方案/答案是 1)使用 y 命令(正如其他答案也建议的那样)，在我的情况下，2)如下所示设置 LL_ALL 以避免我使用 y 命令时遇到的错误。似乎该范围不适用于 y 命令，因此必须单独识别所有字符(正如我之前错误地认为的那样)

LC_ALL=en_US.UTF-8 sed 'y/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ１２３４５６７８９０（）【】－一/abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890()[]--' file.tsv

更新 2:

根据其他回答者的建议(其中一个神秘地消失了)，为系统设置的语言环境作为一种解决方案被进一步调查，而不是在命令行中设置环境变量。由于这是一个 Docker 镜像容器环境，我找到了一个可以放入我们的基础镜像的解决方案，它解决了基础系统级别的问题。

我已经添加到我们的基础 Dockerfile 中:

# Set the locale
RUN locale-gen en_US.UTF-8
ENV LANG='en_US.UTF-8' LANGUAGE='en_US:en' LC_ALL='en_US.UTF-8'

现在 locale 命令产生；

LANG=en_US.UTF-8
LANGUAGE=en_US:en
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=en_US.UTF-8

现在 sed 命令的工作方式如下:

sed 'y/ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ１２３４５６７８９０（）【】－一/abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890()[]--' file.tsv

作为旁注，我希望 stackoverflow 提供了一种将答案归功于多个答案的方法，因为最初的 3 个答案(同样，一个消失了)都帮助我找到了解决方案，但我只能选择一个。这种情况经常发生。

最佳答案

如果 perl没关系:

$ perl -Mopen=locale -Mutf8 -pe 'tr/０-９ａ-ｚＡ-Ｚ（）【】－一/0-9a-zA-Z()[]--/' ip.txt
Part Number
123-956-AA
343-213-[E]
XTE-898-(5)

-Mopen=locale -Mutf8将语言环境指定为 utf8

tr/０-９ａ-ｚＡ-Ｚ（）【】－一/0-9a-zA-Z()[]--/根据需要翻译字符，也可以使用y而不是 tr

sed (GNU sed) 4.2.2可以使用，但不支持范围

$ # simulating OP's POSIX locale
$ echo '91Ａ９foo' | LC_ALL=C sed 'y/Ａ９/A9/'
sed: -e expression #1, char 12: strings for `y' command are different lengths

$ # changing to a utf8 locale
$ echo '91Ａ９foo' | LC_ALL=en_US.UTF-8 sed 'y/Ａ９/A9/'
91A9foo

进一步阅读: https://wiki.archlinux.org/index.php/locale

关于regex - 如何使用 sed 表达式用单宽替换双宽字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50430188/

26

4

0

文章推荐： docker - 在没有互联网连接的情况下运行docker compose文件

文章推荐： hadoop - 使用HiveMetaStoreClient(由此，HiveConf)检索Hive元数据

文章推荐： docker - 在Docker上构建kubernetes

sed - 在模式之间每四行添加两行 - SED
我需要一些有关 Sed 的帮助。我在 Windows 和 Mac OSX 上使用它。我需要 Sed 添加一个每 4 行，在第一个之后找到，并在上停止这样做我就是找不到办法做到这一点。每
sed - sed 给出的前面的正则表达式错误无效
我是一个管理很多网站的轮换团队的一员，我们继承了一个网站的一些特别糟糕的代码，我们正在彻底重新设计该网站。非常可怕的是，开发服务器上有一些链接将您带到实时服务器和旧域以及许多其他可怕的事情。我一直在
sed - sed:没有以前的正则表达式
我正在尝试在脚本中运行以下表达式以查找设备并在html文件中更改与该设备关联的字段之一。 sed -e "s/$OLDTEST/$TESTING/" -e "s/$CURRENTVALU/$NEWST
sed - sed 多行删除
我正在尝试使用 sed 删除所有出现的 #ifdef _WIN32 #endif #ifdef 和 #endif 之间存在的所有内容都是空行。我使用 sed 的经验有限，我已经阅读了一些关于多行功能的
sed - sed 命令中的逗号代表什么？
以下命令是什么意思: sed -e '/SUBCKT\ REDBK128S4_LC/,/ENDS/ d' $1 什么,代表？最佳答案如果指定两个地址，则指定执行命令的行范围。在您的 sed表达
sed - sed-注释匹配的行和其后的x行
我需要使用sed注释匹配行和其后的4行的帮助。在文本文件中。我的文本文件是这样的： [myprocess-a] property1=1 property2=2 property3=3 proper
sed - sed-用一个命令替换两个字符中的任何一个
我想要一个sed命令来完成以下任务: $ sed s'/:/ /g' sed s'/=/ /g' 也就是说，我想写 sed s'// /g' 并用空格替换=和:。最佳答案 sed s'/[:=]/
sed - sed:每N行插入一个字符串
我想在大文件中每隔30行插入一个字符串。我正在使用mini-sed，它不支持〜(波浪号)范围运算符。我正在寻找仅sed的解决方案。最佳答案该线程是如何使事情过于复杂的另一个示例。应该这样做: se
sed - grep + grep + sed = sed : no input files
有人可以帮我吗？ grep " 287 " file.txt | grep "HI" | sed -i 's/HIS/HID/g' sed: no input files 也尝试过 xargs gre
sed - 替换换行符 sed
这个问题已经有答案了: How can I replace each newline (\n) with a space using sed? (43 个回答) 已关闭2 年前。如何使用 sed 命
sed - sed 中用于屏蔽信用卡的正则表达式
我们需要屏蔽信用卡号。屏蔽除最后 4 位数字以外的所有数字。我正在尝试使用 SED。由于信用卡号长度从 12 位到 19 位不等，我正在尝试编写正则表达式。以下代码将收到字符串。如果它包含形式为“CA
sed - 如何理解带有复杂替换的 sed？
例如: sed 's@/lib$64$\?$32$\?/ld@/tools&@g' abc.txt 's@' 、 '(' 、 '\?' 、'&' 和 '@' 等含义是什么？如何找到最合适
sed - 在 sed -f 中使用变量(其中 sed 脚本在文件中而不是内联)
我们有一个进程可以使用包含 sed 的文件更改管道输入的命令。我需要用变量值替换输入中的占位符，例如在一个 -e我可以运行的命令类型； $ echo "Today is XX" | sed -e "
linux - sed 命令 sed 's///' 和 sed "s###"的区别
这个问题在这里已经有了答案: Using different delimiters in sed commands and range addresses (3 个答案) 关闭1 年前。我想问 2
sed - 如何使用 sed 将多行追加到一个文件？
是的，我搜索了该网站，但我认为我没有看到任何东西可以专门解决我无法克服的非常(我想很简单)的问题。我正在上 Linux 类(class)，有人问我这个问题: Use the sed command
sed - 使用 sed 获取到某个点的不同路径的列表
我有一个看起来像这样的文件路径列表 abc/def/ghi/jl/r1/r2 abc/def/ghi/jl/r9/r11 abc/nyc/ghi/jl/r3/r4/r5 abc/nyc/ghi/jl/
sed - 在终端中使用 sed 替换文件中的文本
我在这个文件中有这个文本: test.php $databases = array ( 'default' => array ( 'default' => array (
sed - 使用 Sed 复制和修改行
让我们考虑一个包含以下语句的 SQL 文件作为输入(即 myTable.sql): EXECUTE IMMEDIATE 'CREATE OR REPLACE PUBLIC SYNONYM ' || m
sed - 使用 sed 为每行输出添加前缀
好的，谷歌搜索几分钟后，这似乎是在每行输出前加上 sed 前缀的常规方法但是我得到一个我不明白的错误。这是什么意思，我该如何解决？ $ sed 's/^/#/' test.txt sed: -e
sed - 使用 sed 搜索和替换多位数字
我有以下文件列表: r1 r2 10 r11 r99 我正在尝试替换 ls 输出中文件名中 r 之后的所有数字我要找的结果: rA rA rA rA rA 使用下面的 sed 命令我可以匹配

首页

博学

6Ren·AI

商城

regex - 如何使用 sed 表达式用单宽替换双宽字符