gpt4 book ai didi

string - 使用powershell预处理html数据

转载 作者:行者123 更新时间:2023-12-02 04:32:10 24 4
gpt4 key购买 nike

我有一些客户数据的 html 源代码,需要在使用连接字符串拆分的行进行部署之前从 html 标记中清除。

我希望能够定位特定类型的信息。例如,如果客户的页面上有一个类别列表。每个“类别”都位于一个易于区分的标签内:

<span _ngcontent-jal-c67="" class="category-name">Cryptocurrency</span>

是否可以删除未嵌套在类似 html 标记内的所有其他内容?

比方说,我想要 <span *>*</span> 内发生的所有内容。这样每个非<span></span>标签及其内容将被删除。所有<span ***>***</span>的内容会留下来,没有标签。这是我可以在 powershell 中做的事情吗?让我们避免使用paste.exe 和cygwin 类型的东西。我正在寻找标准的 native Windows 方法(cmd 或 powershell)。

再次,我想删除所有标签。

我不删除的内容应仅限于在特定标签中找到的内容。像,<span _ngcontent-jal-c68="" class="category-name">Shopping</span>适合 <span *>*</span> 的一切简介

仅保留内容。没有标签。

来自:<span _ngcontent-jal-c32="" class="category-name">Home and Graden</span>

至:Home and Graden

我真的在寻找如何在 powershell 中执行此操作的答案,而不需要安装任何东西或对操作系统(windows10)进行任何有趣的更改

最佳答案

而不是使用精致的Regular Expressions ,您可能只使用 [System.Net.WebUtility]::HtmlDecode方法:

$Html = '<span _ngcontent-jal-c67="" class="category-name">Cryptocurrency</span>'
([Xml][System.Net.WebUtility]::HtmlDecode($Html)).GetElementsByTagName('span').'#text'

结果:

Cryptocurrency

关于string - 使用powershell预处理html数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59598034/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com