gpt4 book ai didi

jsoup - 获取 jsoup 中元素的字符偏移量

转载 作者:行者123 更新时间:2023-12-04 16:12:00 26 4
gpt4 key购买 nike

我需要将 jsoup 元素映射回源 HTML 中的特定字符偏移量。换句话说,如果我有这样的 HTML:

Hello <br/> World

我需要知道“Hello”从偏移量 0 开始,长度为 6 个字符, <br/>从偏移量 6 开始,长度为 5 个字符,依此类推。

我在 Element javadoc 中找不到返回此信息的 getter。可以找回吗?

最佳答案

我不相信 Jsoup 有这个功能。这个问题似乎比 HTML 解析更接近词法分析。

我会编写一个语法,然后针对该语法编写一个词法分析器,该语法将标记 HTML,并提供您正在寻找的偏移量。

首先,使用 Jsoup 解析文档以验证它是有效的 HTML。

然后,根据语法对文档进行词法分析。语法可能如下所示:

Document := {optional-opening-tag} | {literal} {optional-opening-tag} | {optional-closing-tag}

optional-opening-tag := ["<" {literal} ">" {optional-opening-tag}|{literal} ] | ""

optional-closing-tag := "</ {literal} ">" | ""

literal := any string of characters not beginning with whitespace, or containing "<"

将您在存储标记、第一个字符的索引和长度的对象中找到的每个标记插入。

关于jsoup - 获取 jsoup 中元素的字符偏移量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11387458/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com