macos - bash:ps grep用于Umlaut(OS X)处理-6ren

macos - bash:ps grep用于Umlaut(OS X)处理

转载作者：行者123 更新时间：2023-12-03 03:37:01

在shell脚本中，我需要找出特定的应用程序是否仍在运行。如果我们的应用程序名称不包含任何Umlauts（äöüàéè...），这将是一个简单的任务。我如何才能可靠地为有问题的过程“ grep”？

在此示例中，shell脚本获取应用程序名称作为参数“amétiqsiMedBüro.app”。有多个同时运行的自定义副本，它们的名称不同，脚本应仅检查特定的应用程序（通过参数获取的一个），而忽略其他应用程序。

将grep用作特定应用程序名称（参数）时，完全没有命中：

bash> ps ax | grep "amétiq siMed Büro.app"

bash>

点击次数过多：

bash> ps ax | grep "/[A]pplications/am" 
 4335   ??  S      5:19.01 /Applications/ame?M^Atiq siMed Bu?M^Hro.app/Contents/MacOS/siMed2
10188   ??  S      0:03.18 /Applications/ame?M^Atiq siMed SUPPORT.app/Contents/MacOS/siMed2

再次尝试手动缩小grep时再次失败：

bash> ps ax | grep "/[A]pplications/am" | grep "Büro"

bash>

似乎grep在第一次出现Umlaut字符的位置后停止工作。

我也尝试过 lsof-没有成功。知道下一步该怎么做吗？

运行OS X 10.7-10.9

最佳答案

tl; dr

使用pgrep代替ps + grep
使用iconv -t UTF8-MAC将搜索字符串转换为NFD（标准化分解Unicode）形式。

pgrep -qlf "$(iconv -t UTF8-MAC <<<'amétiq siMed Büro.app')" && echo "RUNNING"

简而言之：Mac文件系统（HFS +）以分解的Unicode格式（NFD）存储文件名，而您在shell中键入的则是合成的Unicode格式（NFC），并且shell和Unix实用程序都不会处理两个等效的字符串-内容相同，即使内容相同，也可以采用与内容相同的不同形式。

如果您对血腥细节感兴趣，请继续阅读。

背景

一些带重音的Unicode字符具有组合形式-直接代表该字符的单个代码点（例如 ü）以及等效的分解形式-基本字符后跟组合的变音字符（例如 u，后跟 ¨）;有关更多信息，请参见 https://en.wikipedia.org/wiki/Unicode_equivalence。

仅包含组成字符的字符串采用NFC规范化形式（C表示“ Composed”），而仅包含分解字符的字符串采用NFD规范化形式（D表示“ Decomposed”）。

Mac文件系统（HFS +）将文件名存储在NFD（已分解）中，这具有以下含义：

通过Finder和Spotlight启动的应用程序在系统的进程表中表示为NFD字符串。
同样，在外壳程序（Terminal.app中的bash）中，以下所有技术都会产生NFD字符串：

路径名扩展（例如 echo *.app）
ls和类似实用程序的输出
提示时交互式文件名完成

相反，如果您在外壳程序中键入脚本或应用程序名称（或从其他位置复制NFC表单），则将以NFC表示。

问题的症结：shell和Unix实用程序无法识别NFD和NFC形式的等效性，因此将它们视为不同的形式。

麻烦且晦涩的解决方法是仅将NFD字符串与NFD字符串匹配，并且仅将NFC字符串与NFC字符串匹配。

阴险的是，给定字符串的NFD和NFC形式在外壳中看起来完全相同-应当如此-但是要区别对待。

要确定给定的字符串是NFD还是NFC形式，请使用例如：

 cat -v <<<'amétiq siMed Büro.app'

如果字符串在NFC中，则输出与输入相同。
如果字符串在NFD中，则输出包含乱码；例如， ame?M-^Atiq siMed Bu?M-^Hro.app（实际上，这是 ps报告的内容-尽管不应该）。

或者，通过管道传输到 hexdump -C以查看各个字节值。

请注意，关于 man的 ps注释不能正确显示包含多字节字符的参数列表本身是不正确的（至少从OS X 10.9.2开始）：NFC字符串正确打印，而NFD字符串不是正确。
与 pgrep相比，它可以正确打印NFC和NFD字符串，但在匹配时无法识别它们的等效项，如所述。

在NFC和NFD表单之间转换

要在NFD和NFC之间一般转换任何字符串，请使用 iconv和 UTF8-MAC编码方案。

以下示例使用输入字符串 'ü'

以NFC形式 $'\xc3\xbc'-即字节 0xC3 0xBC，它是Unicode代码点 0xFC的UTF8编码
以NFD形式 $'u\xcc\x88'-即 u-基本字符-后跟字节 0xCC 0x88，这是Unicode代码点 0x308的UTF8编码，即所谓的组合音调（ ¨）。

展示转换；请注意，在终端中，结果将始终显示为 ü-例如，通过管道传送至 hexdump -C以查看字节值。

  # NFC -> NFD
iconv -t UTF8-MAC <<<$'\xc3\xbc' # -> $'u\xcc\x88'

  # NFD -> NFC
iconv -f UTF8-MAC <<<$'u\xcc\x88' # -> $'\xc3\xbc'

使用这些转换是安全的，因为如果输入字符串已经是目标格式，则将其保留原样。

要获得字符串的可重用的ANSI-C引号形式-NFC还是NFD-您可以使用下面列出的 bash shell函数 quoteNonAscii；在当前情况下，以NFD格式获取应用程序名称的表示形式：

cd到 /Applications（或您的应用程序所在的任何地方）
运行 quoteNonAscii am*tiq*siMed*B*ro.app-路径名扩展将确保glob扩展为文件名的NFD形式。

# Pass any string to this function to output 
# an ANSI-C-quoted string with all non-ASCII bytes represented
# as \x{nn} hex. codes; trailing newlines are always trimmed.
# Examples:
#    quoteNonAscii 'ü'   # (if NFC) -> $'\xc3\xbc'
#    quoteNonAscii 'ü'  # (if NFD) -> $'u\xcc\x88'
quoteNonAscii() {
  hexdump -ve '/1 "%02x "' <<<"$*" | 
    awk -v RS=' '  '
      BEGIN { printf "$\x27" }                # print the opening of the ANSI-C-quoted string, `${single quote}`
      $1=="0a" { nls=nls "\x5cn"; next }      # store consecutive newlines in a temp. variable
      nls      { printf "%s", nls; nls="" }   # a non-newline char; we now know that the newlines stored so far are NOT trailing, so we print them and clear the temp. variable.
      $1>"7f"  { printf "\\x" $1; next }      # a non-ASCII byte -> PRINT AS `\xnn`
      $1=="22" { printf "\x5c\x22"; next }    # a double-quote char. -> escape with `\`
      $1=="27" { printf "\x5c\x27"; next }    # a single-quote char. -> escape with `\`
      $1=="07"  { printf "\\a"; next }        # bell char.
      $1=="08"  { printf "\\b"; next }        # backspace
      $1=="09"  { printf "\\t"; next }        # tab
      $1=="0b"  { printf "\\v"; next }        # vertical tab
      $1=="0c"  { printf "\\f"; next }        # ff
      $1=="0d"  { printf "\\r"; next }        # CR
      $1=="1b"  { printf "\\e"; next }        # escape
      { system("printf %b \"\\x" $1 "\"") }   # a byte that is an ASCII char -> print as a CHAR.
      END { print "\x27"}'                    # print the closing `{single quote}` of the ANSI-C-quoted string.  
}

macOS中的语言环境：

注意：这是原始答案的修订后遗留物，希望其中仍包含有用的信息。

在交互式外壳中运行 locale会告诉您有效的语言环境，反映在以下环境变量中： LANG， LC_COLLATE， LC_CTYPE， LC_MESSAGES， LC_MONETARY， LC_NUMERIC， LC_TIME 。例如，如果美国英语语言环境生效，您将看到：

LANG="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_CTYPE="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_ALL=

默认情况下， Terminal.app和其他终端程序（例如 iTerm）默认会预先配置外壳程序的语言环境，以匹配通过 System Preferences > Language & Region指定的用户语言环境（在 Terminal.app中，您可以通过 Preferences... > Settings > {Your Profile} > Advanced关闭此行为，选中框 Set locale environment variables on startup）。

字符编码-反映在语言环境ID的 .{encoding}后缀中，通常为 .UTF8-将匹配终端程序设置中配置的编码（对于 Terminal.app，请转到 Preferences... > Settings > {Your Profile} > Advanced并更改 Character encoding设置），如果支持（使用 locale -a查看所有支持的语言/地区+编码组合）。
Terminal和 iTerm都默认为UTF-8，这是一个明智的选择。
如果您的终端程序被配置为使用不受支持的字符编码，则报告的语言环境ID将在 en_US中没有编码后缀（例如，仅 Terminal），并在 "C"中完全还原为 iTerm语言环境-事情可能无法正常工作（ Terminal仍然可以让您从该编码中打印非ASCII字符，但实用程序无法将它们识别为字符，从而导致 illegal byte sequence错误）。
同样，如果您在 System Preferences中配置了不受支持的主要语言和地理区域的组合（例如，将“德语”（ de）与“美国”（ US）组合在一起，则会导致支持的语言环境 de_US），只有 LC_TYPE将与终端程序的编码匹配，而其他 LC_*类别将默认为 "C"。

如果需要手动设置语言环境，请运行：

export LANG={localeId}或
export LC_ALL={localeId}

区别在于 export LANG=...为所有 LC_*类别提供默认值，同时允许您有选择地覆盖它们，而 export LC_ALL=...覆盖所有 LC_*类别。
支持的语言环境ID可以用 locale -a列出；最好选择一种基于UTF-8的代码，例如 de_CH.UTF-8。
可以通过 "POSIX"或 "C"选择 POSIX locale-本质上是纯ASCII的美国英语语言环境。
注意：macOS随附的所有Unix实用程序都存在上述问题：它们无法将NFC和NFD中的等效Unicode字符串识别为相同。
除了这个问题，原则上许多（但不是全部）Unix实用程序都支持UTF8多字节字符识别。

从macOS 10.14开始的一个明显例外-即完全不支持UTF8的实用程序- awk;在较早的macOS版本中， sort也不支持UTF8（当以前使用的过时GNU实现替换为最新的BSD实现时，这种情况发生了变化）。

关于macos - bash:ps grep用于Umlaut(OS X)处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23219482/

文章推荐： sql - 使用 ROLLBACK TO SAVEPOINT(带条件)

文章推荐： azure - Python Azure函数: Runtime is unreachable 503 error

文章推荐： asp.net - 为什么 DbContext.SaveChanges 在 Debug模式下慢 10 倍

macos - 配置文件的默认位置 - MacOS？
在跨平台应用程序中，我正在使用一个配置文件，允许用户根据需要覆盖各种默认值。我的问题是...在哪里放置/查找此配置文件，尤其是关于 MacOS X(我从未使用过且无法访问)？我知道 MacOS X
macos - macOS:在脚本中公证？
由于Xcode的代码签名和存档非常耗时，枯燥且有问题，因此我一直通过自己的脚本使用命令行工具xcodebuild，codesign等对我的开发人员ID签名的macOS应用进行代码签名，存档和交付。公证
macos - MacO 中的逐帧动画
我正在寻找一种在 MacOs 应用程序中以编程方式逐帧绘制动画的方法(不是关键帧属性动画)。我尝试使用drawLayer:inContext:委托(delegate)方法绘制到CALayers，调用s
macos - macOS 文本编辑器和代码编辑器列表
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
macos - 错误安装openCV MacOS
我在83％的安装openCV中遇到问题...我的python是2.7.3。我已经适应了xcode。我使用了这个tuturial。我的Cmake: cmake -D CMAKE_BUILD_TYPE=
macos - MacOS 日志键的keycode
我需要弄清楚 Mac 的日志键的键码(ctrl、shift 等)或者需要知道如何跟踪这个日志按键事件... 基本上我正在将 mac key 代码转换为等效的 Windows key 代码......我
macos - 请求的 macOS 版本不可用。如何修复它教程。 macOS Catalina 公测版
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
macos - 如何将 Rust 应用程序从 macOS x86 交叉编译到 macOS Silicon？
我想将一个 Rust 程序从我的 x86 Mac 交叉编译成一个可以在 Silicon Mac 上运行的二进制文件，但我无法弄清楚链接。我有: 运行 macOS 10.15.7 Catalina 的
macos - macOS Ventura 中的终端重复
在 macOS ventura 中，我无法复制我的终端应用程序。我想这样做，因为我有一个 M1 处理器，我想要一个使用 Rosetta2 打开的处理器和一个本地打开的处理器。有什么办法解决这个问题
macos - 如何让 macOS 虚拟机以安全模式启动？
当您可以访问实际硬件时，在 Mac 上以安全模式启动是很容易的。您只需在启动时按住 shift 键即可。在虚拟机中运行 macOS (OSX) 时如何启动到安全模式？最佳答案 Schmitty 在
macos - macOS Catalina 上缺少头文件
这个问题在这里已经有了答案: How to get Conda and Virtualenv to work on mac OS Catalina? (8 个答案) 关闭 3 年前。我在 macO
macos - 适用于 macOS 的动画应用程序图标
我有一个关于 macOS 应用程序图标的问题。我以前看过很多动画图标，但从来没有真正密切关注正在发生的事情/他们是如何做的。我只是想知道是否有任何方法可以创建在停靠栏中动画的动画应用程序图标。例如:
macos - 将终端命令输出直接打印到 vim - macOS
每当我在 vim 中输入终端命令(例如，!echo hello)时，我会立即被踢出去查看该终端命令的结果，然后提示我使用按 ENTER 或键入命令继续。这有点刺耳。我想留在 vim 中，并在底部打印
macos - 如何在 MacOS 中查找东亚字符的默认字体
当使用文本编辑应用程序时，选择一种字体(例如“Menlo”)来呈现字形，当所选字体不包含特殊字形(例如“𠹷”，它是一个简单的中文字形，“Menlo"不包含它), 应用程序会选择一种字体来呈现它, 在
macos - 如何检查 macOS 上是否启用了虚拟化
已经有几个关于如何在 Mac 上启用虚拟化的问题(例如 How to enable support of CPU virtualization on Macbook Pro?)。经常报告 sysctl
macos - MacOS Exposé 背后的逻辑
这只是出于好奇。 Exposé 有两个功能，其中一个是重新排列桌面上的窗口，一个是显示所有打开的窗口，这样用户可以看到隐藏在其他窗口下面的窗口，另一个功能是将所有窗口移到两侧，让用户与桌面交互。我只
macos - 可执行文件是否总是在 MacOS 上打开终端窗口？
我使用的是 MacOS X，我对应用程序包类型的东西还很陌生。我正在编写一个程序来打开一个窗口并注册鼠标输入——而不是一个命令行工具。当我将我的代码(用 C 编写，如果这很重要)编译成一个可执行文件(
macos - Flutter macOS 插件
我正在制作一个必须支持 macOS 的 Flutter 插件。但是，当我想创建一个插件并在示例应用程序中运行该插件时(即使我还没有编辑过 Flutter 生成的代码)，Xcode 会抛出以下错误。无
macos - 什么是适用于 MacOS 的好的图表编辑器？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
macos - 如何在 MACOS 终端中显示面包屑？
我想在终端(MacOs)中像屏幕一样显示当前目录面包屑: 我该怎么做？现在它只是一个文本...... 谢谢最佳答案首选项 -> 窗口 -> 检查工作目录或文档下的“路径”。路径将作为窗口标题的

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

macos - bash:ps grep用于Umlaut(OS X)处理