mysql - 如何使用 gawk 将 csv 转换为 xml？-6ren

mysql - 如何使用 gawk 将 csv 转换为 xml？

转载作者：行者123 更新时间：2023-11-29 10:52:10

32

4

我想在 Ubuntu 16.04 上使用 awk (gawk) 创建一个可执行文件，将 csv 文件转换为 xml 文件。根据我收集的信息，所需的格式如下。

$ cat tst.awk
BEGIN { FS="," }
NR==1 {
for (i=1; i<=NF; i++) {
    tags[i] = $i
}
next
}
{
print "<whatever>"
for (i=1; i<=NF; i++) {
    printf "    <%s>%s</%s>\n", tags[i], $i, tags[i]
}
print "</whatever>"
}

如何告诉 awk 插入每个字段并重复直到文件末尾？

输入

$ cat file.csv
id,color,status
7,black,open
52,white,closed

输出

awk -f tst.awk file.csv
<whatever>
    <id>7</id>
    <color>black</color>
    <status>open</status>
</whatever>
<whatever>
    <id>52</id>
    <color>white</color>
    <status>closed</status>
</whatever>

这会打印到屏幕上，但我需要它在输出文件中。如果某个字段为 1，我还需要设置 true，如果某个字段为 0，则设置 false。

需要的输出示例

<?xml version="1.0" encoding="UTF-8"?>
<Batch>
  <ASWFileVersion>
  <BatchHeader>
    <BatchId>965</BatchId>
    <UserBatchId>965</UserBatchId>
  </BatchHeader>
  <BatchCustomer>
     <EmployeeNumber>123456</EmployeeNumber>
     <FirstName>fname</FirstName>
     <LastName>lname</LastName>
     <Employee>true </Employee>
  </BatchCustomer>
  <BatchCustomer>
     <EmployeeNumber>654321</EmployeeNumber>
     <FirstName>first</FirstName>
     <LastName>lastn</LastName>
     <Employee>false</Employee>
  </BatchCustomer>
</Batch>

文件没有 header ，并且字段的顺序不正确，它们必须出现在 xml 中。有一个 bool 值 1 或 0 必须转换为 true 或 false。

最佳答案

您的问题中有太多文本需要费力阅读，但一般来说，以下是如何使用 awk 将 CSV 转换为 XML，因为这似乎是您问题的根源:

$ cat tst.awk
BEGIN { FS="," }
NR==1 {
    for (i=1; i<=NF; i++) {
        tags[i] = $i
    }
    next
}
{
    print "<whatever>"
    for (i=1; i<=NF; i++) {
        printf "    <%s>%s</%s>\n", tags[i], $i, tags[i]
    }
    print "</whatever>"
}

$ cat file.csv
id,color,status
7,black,open
52,white,closed

$ awk -f tst.awk file.csv
<whatever>
    <id>7</id>
    <color>black</color>
    <status>open</status>
</whatever>
<whatever>
    <id>52</id>
    <color>white</color>
    <status>closed</status>
</whatever>

希望有帮助。如果没有，则编辑您的问题以包含简洁、可测试的示例输入和预期输出。

关于mysql - 如何使用 gawk 将 csv 转换为 xml？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43522758/

32

4

0

文章推荐： javascript - jQuery ajax 基本身份验证不起作用

文章推荐： ios - 重用 ScrollView

gawk - gawk 中的二进制数
如何在 gawk 中将一个数字指定为二进制数？根据manual , gawk 将所有数字解释为十进制，除非它们前面有 0(八进制)或 0x(十六进制)。与某些其他语言不同，0b 无法解决问题。例如
gawk - 在 gawk 脚本中启用重新间隔
我使用以下 #! 为 gawk 创建可执行脚本: #!/usr/bin/gawk -f 但是，如果我想启用间隔正则表达式，我似乎无法添加 --re-interval或-W re-interval在#!
cmd - Gawk 上的实数
我在带有 cygwin 的 Windows 计算机上使用 gawk。我想要做的是从三列中找到最小值和最大值，两列是纬度和经度，第三列是值。这是代码: echo off for /f "tok
regex - gawk 匹配函数参数作为正则表达式
我在使用 gawk 时遇到错误。下面是我的脚本和示例文件你们能帮帮我吗？我认为正则表达式是对的，但是当它传递给匹配函数时出现错误。我尝试了各种方法，例如将\赋予正则表达式或 double 的特殊字符
awk - gawk 中的正则表达式匹配多种方式
我有一些文本需要拆分以提取相关参数，而我的 [g]awk match 命令不起作用 - 我只是想了解为什么？! (我现在已经写了一个不太优雅的方法......)。所以字符串是 blahblah|ms
gawk 命令中的 JavaScript
我试图理解这个 gawk 命令中的一些 JavaScript: gawk 'function getip(rec) { n=split(rec,a,"\""); split(a[n-1
regex - gawk - 提取文本并将其放在同一行
好的，我有一些文本: === Blah 1 === ::Junk I wish: 2 Ignore ::More Junk: 1.2-2.7 ::ABC: [http://www.google.c
bash - gawk 用于使用变量将包含模式的行替换为多行
我正在尝试用一组行替换包含使用 gawk 的模式的行。比方说，文件 aa 包含 aaaa ccxyzcc aaaa ddxyzdd 我正在使用 gawk 将所有包含 xyz 的行替换为一组行 111\
linux - gawk 命令在服务器上运行时给出空白输出
我有下面的脚本来从 | 中删除换行符定界文件。此命令在本地主机中运行良好。但是在 linux 服务器上运行时给出空白输出 gawk -v RS="[^|]+([|][^|]+){2}\n" '{ gs
linux - gawk 不会过滤掉更大的数字吗？
我在我的程序中使用的简单 gawk 过滤器没有过滤掉比其余部分长一个数字的值。这是我的文本文件: 172 East Fourth Street Toronto 4 1890
http - gawk 在没有超时的情况下通过管道读取最后一位二进制数据？
我有一个已经用 gawk 编写的程序，它可以从互联网上下载很多小的信息。 (媒体扫描仪和索引器) 目前它启动wget来获取信息。这很好，但我想简单地重用调用之间的连接。该程序的一次运行可能会对同一 a
linux - Gawk 打印每列的最大值
我正在编写一个 awk 脚本，它接受文本文件中的一些输入列并打印出每列中的最大值输入: $cat numbers 10 20 30.3 40.5 20
regex - Gawk regexp 选择序列
很抱歉关于正则表达式的第 n 个简单问题，但如果没有在我看来太复杂的解决方案，我无法得到我需要的东西。我正在解析一个只包含 3 个字母 A、E、D 序列的文件，如 AADDEEDDAEEEEEEEEA
awk - gawk NR 和匹配问题
我需要使用正则表达式来解析数据文件的特定行。我的匹配测试命令有效，我的特定行号测试命令有效，但是当我将它们放在一起时，我没有输出。 gawk 'NR==42 {print $0}' filename
awk - FS 中的脱字符 (^) (gawk)
更新这是一个错误，修复程序在 git repo 中可用现在。我无法理解 FS 中的抑扬符被解释。例如，这是我的 file : $ cat file foo bar baz quz 我写了这个 a
awk - gawk FS 将记录拆分为单个字符
如果字段分隔符为空字符串，则每个字符成为一个单独的字段 $ echo hello | awk -F '' -v OFS=, '{$1 = NF OFS $1} 1' 5,h,e,l,l,o 但是，如果
localization - gawk float 本地化
我希望 gawk 使用逗号 , 作为小数点字符来解析数字。所以我将 LC_NUMERIC 设置为 fr_FR.utf-8 但它不起作用: echo 123,2 | LC_NUMERIC=fr_FR.u
awk - 使用 gawk 转置列和行
我正在尝试转置一个非常长的文件，但我担心它不会完全转置。我的数据看起来像这样: Thisisalongstring12345678 1 AB abc 937 4.320194 Thisis
bash - 如何在 gawk 中将日期字符串转换为时间戳？
我正在扫描格式如下的日志文件: 76.69.120.244 - - [09/Jun/2015:17:13:18 -0700] "GET /file.jpg HTTP/1.1" 200 22977 "h
awk - 在 gawk 中加入多个文件
我有大量文件(大约 500 个)。每个文件包含两列。每个文件的第一列都是相同的。我想使用 gawk 将所有文件合并到一个文件中。例如， File 1 a 123 b 221 c 904 Fil

首页

博学

6Ren·AI

商城

mysql - 如何使用 gawk 将 csv 转换为 xml？