gpt4 book ai didi

java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内

转载 作者:行者123 更新时间:2023-12-01 15:53:07 25 4
gpt4 key购买 nike

我有一个程序,可以根据同一文档上的信息(没有 html 信息)对 html 格式的文档进行文本处理。我基本上是在未格式化的文档中找到一个单词或短语,然后在格式化的文档中找到相应的单词,并使用 HTML 标签更改单词或短语的外观以使其突出(例如,将其加粗或更改其颜色)。

这是我的问题。有时,我想对可能是 html 标签一部分的单词或短语进行格式化(例如,我可能想对单词“font”进行一些格式化,但前提是该单词不在 html 标签内) 。有没有一种简单的方法来检测字符串是否是文本 block 中 html 标签的一部分?

顺便说一句,我不能只删除文档中的 html 标签并对剩余文本进行处理,因为我需要保留结果中的 html。我需要添加到现有的 html 中,但我需要可靠地区分属于标签的字符串和不属于标签的字符串。

有什么想法吗?

谢谢,

埃利奥特

最佳答案

你可以做一些事情

  • 为您正在做的事情编写一个正则表达式。您可以在 Google 上找到大量预先编写的内容
  • 找到一个库来解析文档(例如 http://htmlparser.sourceforge.net/ )并仅替换文本

第一个可能是最快和最简单的,但第二个会更可靠。

关于java - 文本处理 - 检测您是否位于 Java 中的 HTML 标记内,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5601470/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com