gpt4 book ai didi

xml - 隔离大型 xml 文件中的文本

转载 作者:行者123 更新时间:2023-12-02 02:41:03 25 4
gpt4 key购买 nike

我是第一次在这里求助,所以请不要吃我。

我手上有一个又大又乱的 .xml 文件。它的结构是这样的:

<SPEAKER N°001>ERROR</SPEAKER N°001>
<ORIGINAL N°001>
TEXT THAT INTERESTS ME1
TEXT THAT INTERESTS ME1
</ORIGINAL N°001>
<JAPANESE N°001>
ツートンカラーの群れはグルグルと回り続け、
三方向から催眠動画を見せられているかのような錯覚に
陥る戦刃だが、それでも、彼女の表情は凍ったままだ。
</JAPANESE N°001>
<TRANSLATED N°001>

</TRANSLATED N°001>
<COMMENT N°001>

</COMMENT N°001>
------------------------------------------------------------
<SPEAKER N°002>ERROR</SPEAKER N°002>
<ORIGINAL N°002>
TEXT THAT INTERESTS ME2
</ORIGINAL N°002>
<JAPANESE N°002>
寧ろ、この異様な状況を前に、【超高校級の軍人】は
一際心が平静になりつつある。
</JAPANESE N°002>
<TRANSLATED N°002>

</TRANSLATED N°002>
<COMMENT N°002>

</COMMENT N°002>
------------------------------------------------------------

这将重复大约一百次。我需要隔离 number> 标签中的文本并删除其他所有内容,因此最终结果如下所示:

TEXT THAT INTERESTS ME1
TEXT THAT INTERESTS ME1
TEXT THAT INTERESTS ME2
...
TEXT THAT INTERESTS ME254

我有一个使用宏和搜索/替换功能的想法,但我终生无法让它发挥作用。该文件太长,无法手动执行。我正在使用 Notepad++ ,但如果使用其他程序更容易,请告诉我。

另外,如果这个问题是重复的,抱歉。

最佳答案

这里有一个方法:

  • Ctrl+H
  • 查找内容:(?:(?!<ORIGINAL.+?>).)*<ORIGINAL.+?>\R*((?:(?!</ORIGINAL.+?>).)+)(?:</ORIGINAL.+?>(?:(?!<ORIGINAL.+?>).)*)
  • 替换为:$1
  • CHECK 匹配大小写
  • 检查 环绕
  • CHECK 正则表达式
  • 检查 . matches newline
  • 全部替换

Demo & explanation

屏幕截图(之前):

enter image description here

屏幕截图(之后):

enter image description here

关于xml - 隔离大型 xml 文件中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59436386/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com