- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当我抓取一个文件时,它会显示
"dest_info_s": "B\u001e�����"
当我进入它时,它显示:
"dest_info_s": "B\u001eøøïùÄ"
我认为这是由于文件编码方式造成的,并且 vi 正在执行一些 cat 无法执行的转换?如何删除文件上的编码以便它仅显示为文本?我想删除编码的原因是因为 sed 无法在文件上正确工作以进行替换,因为它将 sed 命令中的文本与编码文本进行比较,但没有得到匹配。
最佳答案
无论其存储在何处或在何种显示设备上打印,所有文本都必须使用一种或另一种编码进行编码。从文本文件中“删除编码”是不可能的。您所能做的就是将文本从源编码转换为目标编码。一段文本的编码就像能量:你无法创建或销毁它,你所能做的就是将它从一种形式转换为另一种形式。
打印一段文本时呈现的字素取决于(1)文本的编码,(2)打印文本的程序(具体来说,它在将数据传递给打印器之前是否进行任何编码转换)显示设备),以及(3)实际负责呈现文本的显示设备的配置和字体支持。就您而言,我们讨论的是 (1) 文本文件的编码,(2) cat 和 vim,以及 (3) 您的虚拟终端。
cat 实用程序大多不识别文本,并且从不进行任何文本编码转换;它基本上只是将从输入源接收到的字节复制到标准输出。
假设您没有使用非常旧的 vim 版本,它会动态检测文件的编码并捕获 'fileencoding'
设置中的编码(注意:对于此检测,它仅尝试 'fileencodings'
中指定的编码),使用 'encoding'
用于其内部存储编码(与我们的目的无关),并在解释键盘输入和将文本打印到终端时使用 'termencoding'
。
根据您的示例输出,我猜测您的文本文件是每个字符一个字节的编码,可能是 latin1,并且您的终端配置为使用 UTF-8 编码。这就是为什么 cat 输出将最后 5 个字节渲染为 REPLACEMENT CHARACTER U+FFFD � 。这 5 个字节表示非 ASCII 字符,因此不是有效的 UTF-8。当您看到 U+FFFD 字形时,您的终端告诉您您发送了无效的 UTF-8。 (注意:有时终端使用 MEDIUM SHADE U+2592 ▒ 而不是 U+FFFD 来表示无效 UTF-8 的字节,有时您会看到显示设备字体不支持的有效 UTF-8 字符呈现不同的字素;请参阅 https://www.quora.com/What-symbol-is-the-square-box-shown-for-non-representable-Unicode-characters 。)
但是看起来vim正确地识别了文件编码,并且它的终端编码的想法也是正确的。因此,当它将文件内容打印到终端时,它会在源编码字节和相应的 UTF-8 表示形式之间正确进行转换。因此,5 个非 ASCII 字符作为正确的字素正确显示。
如果我的上述推论是正确的,那么您不需要更改任何设置; cat、vim 和您的终端都运行正常。
如果您希望能够手动将文件内容打印到终端,而不依赖于 vim,您可以使用 iconv
程序来执行必要的转换。像这样的东西(假设latin1是源编码):
iconv -f latin1 -t UTF-8 file.txt;
通常建议始终尝试使用 UTF-8。我不确定为什么您的 sed 命令不起作用(这取决于您未提供的 sed 命令的详细信息),但您可能可以通过存储文件的 UTF-8 编码版本来使其工作某处,然后对其运行 sed 命令:
iconv -f latin1 -t UTF-8 file.txt >file-utf8.txt;
sed '...' file-utf8.txt;
或者,您可以使用管道一次性完成:
iconv -f latin1 -t UTF-8 file.txt| sed '...';
关于unix - cat 输出与 vi 输出不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35169101/
正如标题所暗示的那样,我无法弄清楚 Unix 内核如何将逻辑文件偏移量转换为逻辑块号,然后从 i-node 中检索它。 作为引用,我要求对 Maurice J. Bach 在“UNIX 操作系统的设计
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我在互联网上做了一些研究,但仍然很困惑。 UNIX 时间是像 GMT/UTC 那样的通用时间还是像本地时间一样因地而异? 我知道 UNIX 时间是从 1970 年 1 月 1 日格林威治标准时间 00
您如何评估 Unix 系统管理员。 Unix 管理员应该具备哪些编程能力? 最佳答案 我用于快速过滤器的一些: 什么是 fork 炸弹,它是好是坏? 给我一个单行命令,计算日志文件中有多少行从昨天的日
谁能告诉我字典文本文件在 UNIX 系统上的位置?或者我在哪里可以获得一个好的字典文本文件?我目前一直在使用来自 SUN 的文本文件,但它包含不带句点的缩写(否则我可以删除它们)。有人能指出我正确的方
在我的 Ubuntu 12 vps 上,我正在运行一个完整的比特币节点。当我第一次启动它时,它使用了大约 700mb 的内存。如果我 24 小时后回来 (free -m) 将如下所示: total
我想编写一个 unix/linux 程序,它将使用一个配置文件。 我的问题是,我应该把文件的位置放在哪里? 我可以将位置(如 /etc )“硬编码”到程序本身中。 但是,我希望它,如果没有权限的用户可
在UNIX脚本编程中,cat是可以将2个文件组合在一起的命令: cat file1 file2 > file3 通过合并前两个生成第三个。 另外,cat可以与管道一起使用: cat file1 | t
我有一个通过 ssh 连接到外部机器的终端,并且有一个进程在其中运行。 是否可以将执行移到后台,以便我可以关闭 ssh 连接而无需终止它?如果是这样怎么办? 最佳答案 按 control + Z,这将
我正在试验我自己的 BSD 或 Linux 发行版。我想以对最终用户有意义的方式组织系统文件。我希望他们能够访问系统,而不会出现 *nixes 留下的所有文件困惑。 有没有办法在不丢失动态链接的情况下
这条评论让我感到困惑:“kill -l 通常会列出所有信号”。我认为信号意味着量化的能量。 [已添加] 请澄清 Unix 中的(计算)信号和物理信号。它们是完全不同的概念吗? [已添加] 范式之间是否
fuser 命令让我知道哪些进程正在使用文件或目录。 我正在寻找相反的命令:让我知道进程正在使用哪些文件。 更新 忘了说它是针对 Solaris 系统的。 最佳答案 lsof -p 来自 here
如果我有一个叫做“orange”的词,我如何将它拆分成单独的字符。 我的输出应该是: o r a n g e 最佳答案 echo orange | fold -w 1 输出 o r a n g e 关
和有什么区别工作和一个 流程在 Unix 中?你能举个例子吗? 最佳答案 作业是由 shell 启动的进程。 shell 在作业表中跟踪这些。作业命令显示事件后台进程的列表。他们得到一个 jobspe
unix 如何处理带空格和参数的完整路径名? 在 Windows 中,我们引用路径并在其后添加命令行参数,在 unix 中如何? "c:\foo folder with space\foo.exe"
我必须合并具有相同标题的多个CSV文件。 我必须保留第一个文件的 header ,并删除所有其他文件的 header ,然后合并它们并创建一个主文件。 文件1: Id,city,name ,locat
我需要在两个字段上加入两个文件。但是,即使连接失败,我也应该检索文件 1 中的所有值,就像左外连接一样。 文件 1: 01|a|jack|d 02|b|ron|c 03|d|tom|e 文件2: 01
在 Solaris, HP-UX 上获取进程大小的正确方法是什么?和 AIX ?我们应该使用 top或 ps -o vsz或者是其他东西? 最佳答案 vsize的确切定义, rss , rprvt ,
我在文件上使用了“touch”,更新了文件的时间戳,但父目录的时间戳没有改变。但是,(如预期)当我在父目录中创建新文件时,该目录的时间戳确实发生了变化。 类 UNIX 操作系统(特别是 AIX)使用什
一般来说,当我们从多个进程向 UNIX 中的文件追加内容时,我们可以认为什么是理所当然的?是否有可能丢失数据(一个进程覆盖另一个进程的更改)?数据有可能被破坏吗? (例如,每个进程都将每个追加一行追加
我是一名优秀的程序员,十分优秀!