linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记-6ren

linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

25

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

背景。

　　本人在使用oracle的sqlplus批量导入UTF8编码的sql脚本时，由于不了解如何设置让sqlplus识别UTF8格式，导致出现乱码、错行等错误，而使工作无法继续，在google无果的情况下只好想办法转换编码.

　　由于文件较多，手动转换太麻烦，于是想到用脚本批量转换，幸好网上相关脚本比较多，实现起来唯一的麻烦是UTF8的BOM标记.

　　内容:

。

复制代码

代码如下

　　#!/bin/bash
　　for loop in `find . -type f -name "*.sql" -print`do
　　echo $loop
　　mv -f $loop $loop.tmp
　　dos2unix $loop.tmp
　　file_check_utf8='file_check_utf8.log'
　　sed -n '1l' $loop.tmp >$file_check_utf810. if grep '^\\357\\273\\277' $file_check_utf8 >/dev/null 2>&111. then
echo 'UTF-8 BOM'
sed -n -e '1s/^...//' -e 'w intermediate.txt' $loop.tmp14. iconv -f UTF-8 -t GB2312 -o $loop intermediate.txt15. rm -rf intermediate.txt
rm -rf $loop.tmp
　　elif iconv -f UTF-8 -t GB2312 $loop.tmp >/dev/null 2>&118. then
echo 'UTF-8'
　　 iconv -f UTF-8 -t GB2312 -o $loop $loop.tmp21. rm -rf $loop.tmp
　　 else
echo 'ANSI'
mv -f $loop.tmp $loop
　　fi
　　rm -rf $file_check_utf8
　　 #模拟unix2dos，要求文本文件最后一行必须有换行符28. sed -n -e 's/$/\r/g' -e 'w '$loop.tmp $loop29. mv -f $loop.tmp $loop
　　done
　　
　　#!/bin/bash
　　for loop in `find . -type f -name "*.sql" -print`do
　　echo $loop
　　mv -f $loop $loop.tmp
　　dos2unix $loop.tmp
　　file_check_utf8='file_check_utf8.log'
　　sed -n '1l' $loop.tmp >$file_check_utf810. if grep '^\\357\\273\\277' $file_check_utf8 >/dev/null 2>&111. then
echo 'UTF-8 BOM'
sed -n -e '1s/^...//' -e 'w intermediate.txt' $loop.tmp14. iconv -f UTF-8 -t GB2312 -o $loop intermediate.txt15. rm -rf intermediate.txt
rm -rf $loop.tmp
　　elif iconv -f UTF-8 -t GB2312 $loop.tmp >/dev/null 2>&118. then
echo 'UTF-8'
　　 iconv -f UTF-8 -t GB2312 -o $loop $loop.tmp21. rm -rf $loop.tmp
　　 else
echo 'ANSI'
mv -f $loop.tmp $loop
　　fi
　　rm -rf $file_check_utf8
　　 #模拟unix2dos，要求文本文件最后一行必须有换行符28. sed -n -e 's/$/\r/g' -e 'w '$loop.tmp $loop29. mv -f $loop.tmp $loop
　　done

。

　　解释。

　　1.处理UTF8的BOM，本人没有找到好的办法，最后用sed＋grep判断了一下，如果前三个字节是\\357\\273\\277，则文件必定是UTF8，用sed去掉这三个字节再转换。

　　2.为了避免重复或者遗漏，脚本中用iconv对没有BOM的文件尝试转换了一把，转换成功说明文件是UTF8，否则说明是ANSI也就是GB2312 。

　　3.关于最后的sed命令，那是因为本人的系统上没有unix2dos命令，所以进行了模拟，目的是为了方便自己在windows下查看和编辑。

　　以上就是linux 批量转换UTF8到GB2312并处理UTF8的BOM标记的方法，谢谢阅读，希望能帮到大家，请继续关注我，我们会努力分享更多优秀的文章.

最后此篇关于linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记的文章就讲到这里了,如果你想了解更多关于linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

25

4

0

文章推荐： Linux系统的基本命令之逻辑命令的使用方法

文章推荐： Linux基本命令之date命令的参数及获时间戳的方法

文章推荐： linux系统中一次用户态进程死循环案例的分析过程以及解决办法

文章推荐： linux系统下ubuntu 中截图工具及快捷键设置

c++ - 为什么这个程序会保留 2 GB 的内存而不是 1 GB？
#include typedef std::vector vc; typedef std::vector vvc; vvc f() { const int N = (1 不把它还给操作系统。因
c++ - 为什么我的程序在 64 GB RAM 系统上占用的内存不超过 2 GB？
我正在尝试训练 Dlib's train_shape_predictor_ex.cpp与 Halen数据集。我在 Release模式中使用 Visual Studio 将代码编译为 64 位平台作
c++ - 我们如何将一个 100 GB 的文件拆分成一百个 1 GB 的文件？
当我试图解决this 时想到了这个问题。问题。我有一个容量为 120 GB 的硬盘，其中 100 GB 被一个巨大的文件占用。所以 20 GB 仍然是免费的。我的问题是，我们如何将这个巨大的文件拆
c - 为什么在我有 16 GB RAM 的计算机上只能分配 2 GB？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Can you allocate a very large single chunk of memory (
Linux:由于虚拟内存限制，无法在单个进程中分配超过 32 GB/64 GB 的内存
我有一台运行 Linux (3.19.5-200.fc21.x86_64) 的 128 GB RAM 的计算机。但是，我不能在单个进程中分配超过 ~30 GB 的 RAM。除此之外，malloc 失败
c++ - 尽管有 32 GB 内存，但无法分配 3 GB 浮点指针
我需要为 808704000 个 float 分配内存，大约是 3085 MB。我的电脑有 32 GB 内存，运行 64 位 Linux (CentOS 6.6)。每次我尝试分配内存时，malloc
mongodb - 为什么 32 位限制是 2 GB 而不是 4 GB？
很抱歉这个愚蠢的问题，但是当reading about 32 bits limitation ，我发现由于 Memory-Mapped 方法，MongoDB 不能存储超过 2 GB，但是: 2^32
windows - 为什么 32 位等于 4 GB 而不是 4 GB？
假设我们有一个 32 位地址，那么每一位可以是 1 或 0。所以组合总数等于2^32。所以我们可以表示 2^32 个地址(没有单位)。但为什么人们说 32 位地址可以表示 2^32 字节地址(为
c# - 需要 4 GB 或 5 GB 数字的算法 - 这可能吗？
好吧，这个问题确实是一个挑战! 背景我正在从事一个涉及比正常数字更大的基于算术的项目。我是新手，我打算使用 4 GB 文件大小的最坏情况(我什至希望将其扩展到 5GB 上限，因为我之前看到文件大小大
windows - 如何备份 13 GB 的 SVN 存储库？转储是 100+ GB
我在文件系统上有大约 12 个大小为 1 GB 到 10 GB 的存储库，我需要为所有这些存储库设置自动备份(我们的旧备份脚本在计算机出现故障时丢失了) XP 64 位机器。看完this quest
linux - 需要将 azure VM OS 磁盘大小从 32 GB 调整为 16 GB
我尝试调整 Linux VM 上的操作系统磁盘大小，该 VM 通常由 azure 自动创建。我无法创建自定义操作系统磁盘 - 请告知我该怎么做？ enter image description her
vb.net - 想要 40 GB 内存映射文件，但限制为 4 GB？ VB.net
我在 .NET 中遇到了一个问题，我的数组受到我拥有的 RAM 数量的限制，并且我需要可以容纳至少 40 GB 字节的数组。我正在考虑使用硬盘驱动器作为虚拟数组的想法不在乎它是否慢。我正在研究这个想
linux - 需要将 azure VM OS 磁盘大小从 32 GB 调整为 16 GB
我尝试调整 Linux VM 上的操作系统磁盘大小，该 VM 通常由 azure 自动创建。我无法创建自定义操作系统磁盘 - 请告知我该怎么做？ enter image description her
opengl - 平滑渲染 1.2 GB 的纹理，1 GB 的 GPU 如何做到这一点？
我的目标是看看当使用比物理 GPU 内存所能容纳的更多纹理数据时会发生什么。我的第一次尝试是加载多达 40 个 DDS 纹理，导致内存占用比 GPU 内存高得多。但是，我的场景在 9500 GT 上仍
jvm - 如何在 Windows 上为我的 JDK 分配 8 GB(而不是 1 GB)RAM
Windows 上的 JDK 最多需要 2 GB 左右的 RAM。即使我们为 JDK 分配更多 RAM；它不接受它。如果我需要在 Windows 上运行需要 8 GB RAM 的进程；我怎样才能实现它
c - 尽管有足够的可用内存 (32 GB)，但在 malloc() 12 GB 内存后收到 "segmentation fault:11"
我有一个程序需要分配2个15亿长度的整数数组。这是一个编码挑战( https://projecteuler.net/problem=282 )，并且没有办法使用如此大的数组(如果有，请不要告诉我；我应
c - 具有 4 Gb RAM 和 10 Gb 交换分区的 32 位内核中的无限循环 malloc
假设我有一个 32 位内核。 4 Gb RAM，10 Gb 交换分区。我有一个在无限循环中有 malloc 的进程。因此，最终系统的 OOM 将终止该进程。这里有两个论点。参数 1:因为它是 32
linux - 如何使用 Linux split 将一个数 GB 的文件拆分成大约 1.5 GB 的 block ？
我有一个可以大于 4GB 的文件。我正在使用 linux split 命令按行拆分它(这是要求)。但是拆分原始文件后，我希望拆分文件的大小始终小于 2GB。原始文件大小可能在 3-5 GB 之间。我想
Perl 不能在具有 32 GB RAM 的 Snow leopard Mac 服务器上分配超过 1.1 GB
我有一台带有 32GB RAM 的 Mac 服务器(雪豹)。当我尝试在 Perl (v 5.10.0) 中分配超过 1.1GB 的 RAM 时，出现内存不足错误。这是我使用的脚本: #!/usr/bi
asp.net - Windows 2008 R2 Web服务器上的.NET Web应用程序只能寻址16 GB RAM，而不能寻址32 GB-为什么？
我们正在尝试运行.NET 4 Web应用程序(在8 GB，8核心Windows 2008 R2 64位Webedition服务器上)，该应用程序使用Spire.doc创建Word mailmerge文

首页

博学

6Ren·AI

商城

linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记