gpt4 book ai didi

linux - 使用 shell 脚本搜索单词并导出该单词后的 35 个字符?

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:07:01 25 4
gpt4 key购买 nike

我有一个 input.txt 文件,里面有很多奇怪的字符、html 标签和有用的 Material 。我想在单词 description 之后显示 35 个字符,不包括像 $$#$#@$#@***$# 这样的奇怪字符,并且在新文件中没有 html 标签输出.txt。帮我。提前致谢。

我的最终目标是找到单词描述并在描述后打印 35 个字符,其中不应该包括 html 标签和奇怪的字符。是否可以?喜欢这里:

<description>&lt;p&gt;&lt;img class="float_right"
src="http://static3.businessinsider.com/image/502ab0036bb3f7147b00000f-400-300/dnu.jpg"
border="0" alt="dnu" width="400" height="300" /&gt;&lt;/p&gt;&lt;p&gt;The lawn
was filled with &lt;a class="hidden_link"
href="http://www.businessinsider.com/blackboard/goldman-sachs"&gt;Goldman
Sachs&lt;/a&gt; Group Inc. partners dressed in pink looking out on a pink sunset.

我想从:The lawn is filled with(再次跳过这些标签并继续)Group Inc. partners(35 个字符。完成!)然后停下来搜索另一个描述!

最佳答案

您可以使用 XPath 选择 HTML 节点中的所有文本。在您的情况下,这应该有效:

xpath -q -e '//description//text()' input.txt

查询 //description//text() 的工作方式如下:

  • //description:向下钻取 HTML 文档,直到找到名为 description
  • 的节点
  • //text():在此节点内向下钻取所有其他节点并选择它们的文本

鉴于您的数据输出:

The lawn was filled with 
Goldman Sachs
Group Inc. partners dressed in pink looking out on a pink sunset.

关于linux - 使用 shell 脚本搜索单词并导出该单词后的 35 个字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11966299/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com