gpt4 book ai didi

c# - 替换单词,即使它之间有空的 HTML 标记,这会破坏它

转载 作者:太空宇宙 更新时间:2023-11-03 14:55:17 25 4
gpt4 key购买 nike

所以这是一个相当奇怪的问题,我知道。我使用一个名为 pdf2htmlEX 的工具,它将 PDF 转换为 HTML。到目前为止,结果非常令人印象深刻。在我转换为 HTML 的所有 PDF 中,我还没有看到一个错误。

有了这个 HTML,我需要用 C# 动态替换一些字符串。但是,我不能简单地说 line.Replace("#SOME_STRING", "Another string") ,虽然我写了#SOME_STRING在导出为 PDF 之前在文档中。为什么不呢,你可能会问?因为 pdf2htmlEX 的输出可以看起来像这样:

<div class="t m0 x5 h5 ya ff4 fs3 fc0 sc0 ls0 ws0">#SOME_ST<span class="_ _5"></span>RING </div>

请参阅带有 _ 的空 span 标签和 _5类(class)?是的,这使我无法替换我的话。 _5类只是有一些宽度(如 width: 0.9889px )。

在这种情况下,我将如何替换 #SOME_ST<span class="_ _5"></span>RING与其他东西?

以下是一些案例:

(#SOME_STRING)          #SOME_ST<span class="_ _5"></span>RING
(#SOME_OTHER_STRING) #SOME_<span class="_ _7"></span>OTHER_ST<span class="_ _5"></span>RING

我有点迷路了,因为我无法删除所有 _5元素,因为每次我更改文档中的某些内容时,类都是随机的。

编辑:所以我基本上需要一种方法来从我自己的键值对中过滤掉 HTML 标记,这样我就可以替换像 #SOME_STRING -> SOMETHING_ELSE 这样的词。 .

最佳答案

尝试使用正则表达式过滤所有空范围:

var myRegex = new Regex(@"(?<emptyspan><span[^>]*></span>)", RegexOptions.None);
var strTargetString = @"<div class=""t m0 x5 h5 ya ff4 fs3 fc0 sc0 ls0 ws0"">#SOME_ST<span class=""_ _5""></span>RING </div> <span></span>";

foreach (Match myMatch in myRegex.Matches(strTargetString))
{
var emptyString = myMatch.Groups["emptyspan"].Value;
// replace or remove empty string ??
}

关于c# - 替换单词,即使它之间有空的 HTML 标记,这会破坏它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49670641/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com