gpt4 book ai didi

xml - 如何通过 sed 或其他方式将文件中的 [^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]+ 替换为 ""?

转载 作者:太空宇宙 更新时间:2023-11-04 12:52:45 26 4
gpt4 key购买 nike

我用文本编辑器在 xml 文件中查找并替换了一些奇怪的字符。用正则表达式

[^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]+ ---> "" 

现在,我需要在 linux 命令行中使用它。

我问你如何在 linux 命令行中使用 sed 或任何相同的查找和替换作业。

提前致谢

最佳答案

你可以试试这个:

sed 's/\\u\(0009\|000A\|000D\|0020\|D7FF\|E000\|FFFD\|10000\|10FFF\)//g' <<< "[^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]"

在替换之前,确保你真的想要替换这些字符,因为其中一些是制表符、换行符、空格......

更新:

一个基于 4-5 个六边形代码示例的通用模式:

sed 's/\\u[0-9A-F]\{4\}[0-9A-F]\?//g' <<< "[^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]"  

将替换所有 \u 后跟 4 或 5 个十六进制代码

请注意,在 4 十六进制代码字符串之后的大写单词(即 Foo)将匹配:

\u0000Foo 将更改为 oo,因为 Foo 的 F 将匹配第 5 个可选的十六进制代码。

关于xml - 如何通过 sed 或其他方式将文件中的 [^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]+ 替换为 ""?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36636704/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com