xml - 使用 sed、awk、cat 或 grep 将 xml 中的 url 通过管道传输到 Linux 中的单独文件中-6ren

xml - 使用 sed、awk、cat 或 grep 将 xml 中的 url 通过管道传输到 Linux 中的单独文件中

转载作者：太空宇宙更新时间：2023-11-04 03:57:47

26

4

我有一个 xml 文件，其中包含许多产品，如下面的 xml 示例所示。

我想 grep 出此文档中的所有 url，并将它们通过管道传输到一个新文档中。例如我想获取以下网址:

<url></url>

并将它们通过管道传输到一个新的 txt 文件中，每个 url 位于新行上。因此输出看起来像一个 url 列表，例如:

http://www.example.com/nav/rooms/kitchens/kitchen-worktops/gemstone_solid_surface_worktops/-specificproducttype-worktops/Cooke-and-Lewis-Gemstone-Triassic-Worktop-3050mm-13128613
http://www.example.com/nav/fix/nails-screws-fixings-hardware/furniture-hardware/legs___supports/-specificproducttype-furniture_legs/Rothley-Furniture-Leg-Angled-L501XN-Brushed-Nickel-Effect-H128mm-9281999
http://www.example.com/nav/fix/electrical/cable-management/cable_clips/Corelectric-Clips-Cable-Round-Polybag-Pk20-11348134
http://www.example.com/nav/fix/power-tool-accessories/router-bits/jointing_biscuits/Trend-T-Tech-Beech-Biscuit-No-10-TT-BSC-10-100-Pack-9288386
etc...

这是 xml 的示例，对于许多产品来说，此示例会重复多次:

<product>
                          <id>13128613</id>
                          <name>Cooke &amp; Lewis Gemstone Triassic Worktop 3050mm</name>
                          <categoryId>9372151</categoryId>
                          <features>Edged 1 long, 2 short sides, No templating required reducing fitting complexities, time and cost, This stunning design is made from 85% recycled material including glass and shell, supporting environmental sustainability, A 6mm solid material bonded to a 28mm solid chipboard core, backed with a moisture resistant balance paper for complete water resistance, A hard surface that is resistant to daily wear and tear</features>
                          <url>http://www.example.com/nav/rooms/kitchens/kitchen-worktops/gemstone_solid_surface_worktops/-specificproducttype-worktops/Cooke-and-Lewis-Gemstone-Triassic-Worktop-3050mm-13128613</url>
                          <productHierarchy>Rooms &gt; Kitchens &gt; Kitchen Worktops &gt; Gemstone Solid Surface Worktops &gt; Worktops</productHierarchy>
                          <quantity/>
                          <sku>
                                    <id>13619319</id>
                                    <name>Cooke &amp; Lewis Gemstone Triassic Worktop 3050mm</name>
                                    <description>A 6mm solid material bonded to a 28mm high performance chipboard core, Cooke &amp; Lewis Gemstone is the perfect green choice, formulated with 85% recycled material.</description>
                                    <ean>5397007119039</ean>
                                    <condition>new</condition>
                                    <price>582.00</price>
                                    <wasPrice/>
                                    <deliveryCost>0.0</deliveryCost>
                                    <deliveryTime>Delivery usually within 5 weeks</deliveryTime>
                                    <stockAvailability>1</stockAvailability>
                                    <skuAvailableInStore>0</skuAvailableInStore>
                                    <skuAvailableOnline>1</skuAvailableOnline>
                                    <channel>Home Delivery Only</channel>
                                    <buyerCats>
                <catLevel0>KITCHENS</catLevel0>
                <catLevel1>SOLID SURFACE WORKTOPS</catLevel1>
                <catLevel2>SPEEDSTONE SOLID SURFACE</catLevel2>
            </buyerCats>
                                    <affiliateCats>
                <affiliateCat0>Home &amp; Garden</affiliateCat0>
            </affiliateCats>
                                    <manufacturersPartNumber/>
                                    <specificationsModelNumber/>
                                    <featuresBrand>Cooke &amp; Lewis Gemstone</featuresBrand>
                                    <imageUrl>http://example.com/is/image/5397007119039_001c_v001_zp</imageUrl>
                                    <thumbnailUrl>http://example.com/is/image/5397007119039_001c_v001_zp?$75x75_generic$=</thumbnailUrl>
                                    <skuNavAttributes>
                                              <ecoGrowFoods>false</ecoGrowFoods>
                                              <ecoDLME>false</ecoDLME>
                                              <ecoRecycle>false</ecoRecycle>
                                              <ecoSavesWater>false</ecoSavesWater>
                                              <ecoHealthyHomes>false</ecoHealthyHomes>
                                              <ecoNurtureNature>false</ecoNurtureNature>
                                              <ecoSavesEnergy>false</ecoSavesEnergy>
                                    </skuNavAttributes>
                          </sku>
                </product>

我只想获取产品的主 url，我不关心 xml 结构中的其他 url，例如 imageUrl 和thumbnailUrl。

我已经尝试过:

sed -rn '/<url>([^"]*)<\/url>/' file.xml > file.txt

但是到目前为止输出为空。

最佳答案

您可以先 grep 查找 <url>行(如果 XML 文件的格式如您所示)，最后删除 XML 标签:

grep '<url>' file.xml | sed 's/.*>\([^<]*\)<.*/\1/' >> file.txt

您可以完全删除标签

grep '<url>' a.txt | sed 's/<\/*url>//g'

替换 < 后可以选择第二列和>带空格:

grep '<url>' a.txt | tr '<>' ' ' | awk '{print $2}'

此外，您可以使用 xpath 而不是使用 grep选择正确的标签，例如像这样

xpath -q -e '//product/url' file.xml | ... > file.txt

关于xml - 使用 sed、awk、cat 或 grep 将 xml 中的 url 通过管道传输到 Linux 中的单独文件中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24086107/

26

4

0

文章推荐： linux - 将列转置为格式化输出 :

文章推荐： python - 如果 python 中没有选项，optparse 可以工作

文章推荐： java - Tomcat Web 应用程序调试数据库连接

grep - 需要有关 grep 另一个 grep 命令输出的帮助
我有一个文件 test.log。非常大的日志文件。它有不同级别的日志记录。例如，trace , debug , info , warning和 error . 显然trace级别消息只是高速发送垃圾邮
UNIX grep 命令(grep -v grep)
我正在经历一些事情，发现了我无法理解的事情， grep -v grep 这意味着什么？我知道 -v 开关将选择所有不匹配的行。但为什么是第二个grep？这是完整的命令: ps -ef | grep
grep - grep 中的数字导致一行
我使用 egrep 输出一些带有平台名称的行: XXX | egrep "i686-nptl-linux-gnu$|i686-w64-mingw32$|x86_64-unknown-linux-gnu
grep - 'grep' 命令的退出状态码
grep退出状态部分报告中的手册: EXIT STATUS The exit status is 0 if selected lines are found, and 1 if not
grep - 需要对多个字符串的第一次出现进行 grep
我试图返回多个字符串的第一次出现，即，我想从以下文本中选择第一次出现 1259、3009 和 1589 的行。 ADWN 1259 11:00 B23 ADWN 3009
grep - grep 是什么风格的正则表达式？
我猜它不是 Perl 兼容的正则表达式，因为有一种特殊的 grep具体来说就是 PCRE。什么是grep最相似？ grep有什么特别的怪癖吗？我需要知道什么？ (我习惯了 Perl 和 PHP 中的
grep - grep 可以只显示与搜索模式匹配的单词吗？
有没有办法让 grep 从与搜索表达式匹配的文件中输出“单词”？如果我想在多个文件中查找“th”的所有实例，我可以这样做: grep "th" * 但是输出会是这样的(粗体是我写的)； some-t
grep - grep 允许搜索重复项吗？
我有许多(近 100 个)大 csv 文件，第一列中有 sellID。我知道某些 sellID 在 2 个或更多文件中重复 2 次或多次。是否可以使用 grep 找到所有重复的 sellID(创建映射
grep - 将文件列表传递给 grep
我有一个文件中的文件列表。该列表很大，并且文件名是非标准的:这意味着有些文件包含空格、非 ASCII 字符、引号、单引号... 因此，将庞大的文件列表作为参数传递给 grep 并不是一种选择: 因为我
grep - 使用带有两个变量的 grep
我想在 shell 脚本中使用 grep 和两个变量 var = match cat list.txt | while read word_from_list; do grep "$word_
grep - 基本 grep
我有一个大文件，其中每一行都包含一个子字符串，例如 ABC123。如果我执行 grep ABC file.txt 或 grep ABC1 file.txt 我按预期返回这些行，但如果我执行 grep
grep - grep 命令的奇怪行为
当我执行以下 grep 时，我得到的结果我无法向自己解释: host:/usr/local/tomcat > grep '-XX:PermSize=256m' * RELEASE-NOTES:
grep - 如何在具有特定扩展名的文件中递归 grep？
这个问题在这里已经有了答案: grep recursively for a specific file type on Linux (5 个回答) 关闭4年前。要在子目录中查找所有带有 .out 扩
grep - grep 自动忽略文件
有什么方法可以让我在搜索某些东西时使用 grep 忽略某些文件，相当于 svnignore 或 gitignore 的东西？我通常在搜索源代码时使用类似的东西。 grep -r something *
grep - grep 可以只显示匹配搜索模式的单词吗？
有没有办法让 grep 从匹配搜索表达式的文件中输出“单词”？如果我想在多个文件中找到“th”的所有实例，我可以这样做: grep "th" * 但是输出会是这样的(粗体是我的)； some-tex
bash - Grep $value `grep $value2 ` `` - 嵌套 grep？
我是 awk/sed 的完全菜鸟，所以如果我在这里遗漏了一些明显的东西，请原谅我。基本上我正在尝试做一个嵌套的 grep，即类似于: grep $value `exim -Mvh $(`exim -
grep - 管道 shasum 到 grep，但 grep 返回管道输入的所有行，即使是不匹配的
我正在尝试编写下载 node.js source 的脚本和 corresponding SHASUMS256.txt ，校验和，grep OK，不返回任何结果，使用 grep 的 -q 标志成功退出代
linux - grep "str"和 grep 之间有什么区别？和 grep "str"*
在 grep "str"* 这是否意味着 grep 执行 grep 的所有内容？那么 grep -r "str". 的结果比前一个多最佳答案当您运行 grep str * 时，shell 将扩展
grep - 只获取 grep 精确匹配
我正在尝试 grep 文件以查找匹配项的确切出现，但我也得到了更长的虚假匹配项: grep CAT1717O99 myfile.txt -F -w 输出: CAT1717O99 CAT1717O99
grep - 反向匹配的异常 grep 行为
我有一个文件，其中包含我希望通过未指定分析运行的标识符(每行一个)。如果一切运行正常，分析将输出具有相同标识符的另一个列表(不一定按相同顺序)。然而，事实证明，对某些输入标识符没有进行分析，并且这些

首页

博学

6Ren·AI

商城

xml - 使用 sed、awk、cat 或 grep 将 xml 中的 url 通过管道传输到 Linux 中的单独文件中