c - 删除转储中的字节或 c 中的 utf-8-6ren

c - 删除转储中的字节或 c 中的 utf-8

转载作者：太空宇宙更新时间：2023-11-04 02:16:45

26

4

我的消防站中有一个“C”程序，可以将传入的数据包捕获到工作站打印机。然后该程序会扫描数据包并发送声音警报，提示哪些设备将在调用中到期。该县最近开始使用UTF-8数据包，c程序无法处理数据流中所有多余的“00”。我需要忽略 00 或将程序设置为处理 UTF-8。我已经找了好几天了，但对于如何处理像我这样的新手可以处理的 utf-8，没有任何具体的内容。下面是程序的解释部分。

72 00 65 00 61 00 74 00 68 00 69 00 6e 00 67 00 稍后在数据包中

43 4f 44 45 53 45 54 3d 55 54 46 38 0a 40 50 4a 数据包开始

***void compressUtf16 (char *buff, size_t count) {
int i;
for (i = 0; i < count; i++)
    buff[i] = buff[i*2];     // for xx 00 xx 00 xx 00 ...

*{ u_int i=0; 字符*搜索器= 0；字符 c; 诠释j; int 本地标志； static int locationtripped = 0;

    static char currentline[256]; 
static int currentlinepos = 0;
static char lastdispatched[256];
static char dispatchstring[256];

char betastring[256];

static int a = 0;
static int e = 0;
static int pe = 0; 
static int md = 0;

static int pulse = 0;

static char location[128];
static char type[16];
static char station[16]; 

static FILE *fp;
static int printoutscanning = 0;
static char printoutID[20];
static char printoutfileID[32];

static FILE *dbg;

if(pulse) {
    if(pulse == 80) {
        sprintf(betastring, "beta a a a");
        printf("betastring: \"%s\"\n", betastring);
        system(betastring);
        pulse = 0; 
    } else
        pulse++;
}

    if(header->len > 96) {
        for(i=55; (i < header->caplen + 1 ) ; i++) {
            c = pkt_data[i-1];

        if(c == 13 || c == 10) {
            currentline[currentlinepos] = 0;
            currentlinepos = 0;
            j = strlen(currentline);
            if(j && (j > 1)) { 
                if(strlen(printoutfileID) && printoutscanning) {
                    dbg = fopen(printoutfileID, "a");
                    fprintf(dbg, "%s\n", currentline); 
                    fclose(dbg);
                }

                if(!printoutscanning) {
                    searcher = 0;
                    searcher = strstr(currentline, "INCIDENT HISTORY DETAIL:"); 
                    if(searcher) {
                        searcher = searcher + 26;
                        strncpy(printoutID, searcher, 9);
                        printoutID[9] = 0;
                        printoutscanning = 1; 
                        a = 0;
                 e = 0;
                        pe = 0;
                        md = 0;
            for(j = 0; j < 128; j++)
                            location[j] = 0; 
                        for(j = 0; j < 16; j++) {
                            type[j] = 0;
                            station[j] = 0;
                        }
                        sprintf(printoutfileID, "calls/%s %.6d.txt", printoutID, header-> ts.tv_usec);
                        dbg = fopen(printoutfileID, "a");
                        fprintf(dbg, "%s\n", currentline);
                        fclose(dbg);
                    }

最佳答案

UTF-8，除了零代码点本身，不会有任何零字节。所有多字节编码(非 ASCII 代码点)的第一个字节始终以 11 位模式开头，后续字节始终以 10 位模式开头。

从下表中可以看出，U+0000 是 UTF-8 中唯一可以为您提供零字节的代码点。

+----------------+----------+----------+----------+----------+
| Unicode        | Byte 1   | Byte 2   | Byte 3   | Byte 4   |
+----------------+----------+----------+----------+----------+
| U+0000-007F    | 0xxxxxxx |          |          |          |
| U+0080-07FF    | 110yyyxx | 10xxxxxx |          |          |
| U+0800-FFFF    | 1110yyyy | 10yyyyxx | 10xxxxxx |          |
| U+10000-10FFFF | 11110zzz | 10zzyyyy | 10yyyyxx | 10xxxxxx |
+----------------+----------+----------+----------+----------+

UTF-16 将在您的其他 ASCII 字节之间散布零字节，但这是一个简单的问题，即每隔一个字节就丢弃一次。是 0, 2, 4, ... 还是 1, 3, 5, ... 取决于您的 UTF-16 编码是 big-endian 还是 little-字节序。

我从您的示例中看到您的数据流确实指示 UTF-8(43 4f 44 45 53 45 54 3d 55 54 46 38 转换为文本 CODESET=UTF8) 但我向你保证它是在撒谎 :-)

段 72 00 65 00 61 00 74 00 68 00 69 00 6e 00 67 00 是 reathing 的 UTF-16，大概是一个词段，因为我不熟悉那个词(无论如何是英文的)。

我建议您向生成该数据的人澄清，因为它显然是错误的。至于您如何处理 UTF-16，我已经在上面介绍过了。如果其中包含 ASCII 数据(备用字节始终为零)，您可以使用类似以下内容的方式丢弃这些备用字节:

// Process a UTF16 buffer containing ASCII-only characters.
// buff is the buffer, count is the quantity of UTF-16 chars.
// Will change buffer.

void compressUtf16 (char *buff, size_t count) {
    int i;
    for (i = 0; i < count; i++)
        buff[i] = buff[i*2];     // for xx 00 xx 00 xx 00 ...
}

而且，如果您使用的是 other endian UTF-16，只需更改:

buff[i] = buff[i*2];     // for xx 00 xx 00 xx 00 ...

进入:

buff[i] = buff[i*2+1];   // for 00 xx 00 xx 00 xx ...

关于c - 删除转储中的字节或 c 中的 utf-8，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6658936/

26

4

0

文章推荐： c - sprintf for 循环段错误

文章推荐： sass - Gulp 的 includePaths 有什么作用？

文章推荐： c - 定点数学锐化滤波器

WPF 转 XPS 转 PDF
我已经在标准 WPF 控件中实现了一个报告，并且还实现了一个 DocumentPaginator获取这些控件并将它们转换为用于打印的文档。我还实现了一些使用文档分页器将页面呈现为图像并使用 PDFS
javascript - 字符串转 UTF8 转 SHA256 转 BASE64
在 C# 中，我有以下代码: public static string GetHashCode(string p) { var a = new SHA256Managed();
javascript - mySQLi 转 Json 转 Js 文件
您好，我正在尝试在编码后将我的 mysqli 数据库输出到一个 js 文件，我用 json_encode 对其进行编码没有任何问题，但是如何将其放入 js 文件中(每次更新时更新) mysqli数据已
javascript - 从 JS 转 HTML 转 PHP
我需要将 select 从 JS 传递到 HTML。 select 应该包含来自 PHP 的 option。所以，首先我有一个 HTML div，我将在其中添加来自 JS 的内容。
javascript - SVG 转 PNG 转 AJAX API 帖子
我有一个相当大且复杂的 SVG 代码，它根据页面信息使用 JavaScript 和 jQuery 动态生成。然后我有一个 AJAX 帖子保存。我无法将其转换为正确发布图像数据？ var canva
objective-c - NSDate 转 GMTDate 转 JSON 格式
我想将我的本地日期 ([NSDate date]) 转换为 GMT 以创建一个 JSON 字符串 (/Date(1324435876019-0000)/)。当我将时钟设置为 EST 时区时，我的代码
数据库设计技巧[转]
1. 原始单据与实体之间的关系　　可以是一对1、一对多、多对多的关系。在一般情况下，它们是一对一的关系：即一张原始单据对应且只对应一个实体。在特殊情况下，它们可能是一对多或多对一的关系，即一张原
服务器五大相关基础知识【转】
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章服务器五大相关基础知识【转】由作者收集整理，如果你对这篇文章有兴趣，记得
GmailMessage 转 PDF
Google Apps 脚本 - Gmail 是否会实现 GmailMessage (GmailThread) .getAsPdf() 方法？预期输出与 Gmail 中可用的打印为 PDF 的输出相同
一个函数解决SQLServer中bigint 转 int带符号时报错问题
有一个需求是要在一个云监控的状态值中存储多个状态（包括可同时存在的各种异常、警告状态）使用了位运算机制在一个int型中存储。现在监控日志数据量非常大（亿级别）需要对数据按每小时、每天进行聚合，供
1张图看懂RAID功能，6张图教会配置服务器【转】
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章1张图看懂RAID功能，6张图教会配置服务器【转】由作者收集整理，如果你
FFMpeg rtsp 转 m3u8
我正在使用 FFMPeg(版本 ffmpeg-20170330-ad7aff0-win64-static)将 RTSP 转换为 .m3u8。命令是: ffmpeg -rtsp_transport t
treeview - Jtree 转 JPanel
我有一个 JTree使用 DefaultTreeModel 的对象作为模型，我添加/删除与该模型相关的节点。此时，我需要在图形界面中显示树结构，例如 JPanel .如何映射 DefaultTree
iphone - NSString 转 NSArray
我当前正在接收一个文件并将其存储到 NSString 中。然后，我从字符串中创建一个数组并将其呈现在 TableView 中。这在一定程度上有效。我目前收到的数据如下: 公司名称|帐户代码\r\n公司
cocoa - NSImage 转 Base64
我需要创建 NSImage cocoa 对象的 base64 字符串表示形式。处理这个问题的最佳方法是什么，苹果文档似乎在这个主题上有点短(或者我只是找不到它)。 Base64 编码从外面看起来相当复
Javascript 转 ISOString 格式
JS 中的 .toISOString() 函数给我这样的字符串: 2015-06-14T20:00:00:000Z 我需要它是这样的: 2015-06-14T20:00:00Z JS 中是否有其他函数
javascript - COLORREF 转 RGB
我正在尝试使用 JavaScript 转换 COLORREF: COLORREF : When specifying an explicit RGB color, the COLORREF value
JavaFX TextField 转 Int
我在这里遇到了这个代码的问题，只是想制作一个小计算器: 打包申请； import javafx.event.ActionEvent; import javafx.scene.control.TextF
sshfs EBCDIC 转 ASCII
我想要做的是能够通过本地PC上的USS通过sshfs挂载主机上的一些文件。我可以做到这一点，但 sshfs 不能直接完成从 EBCDIC 到 ascii/unicode 的转换。有没有我可以设置的标志
Python Visio 转 pdf
我正在尝试在 python 中将一堆 Visio 文件转换为 pdf。我已经引用了这个.doc to pdf using python并编写了以下代码: import comtypes.client

首页

博学

6Ren·AI

商城

c - 删除转储中的字节或 c 中的 utf-8