gpt4 book ai didi

html - 将纯文本映射回 HTML 文档

转载 作者:行者123 更新时间:2023-11-27 22:40:43 25 4
gpt4 key购买 nike

情况:我有一组字符串表示 Named Entities是从曾经用作 HTML 文档的内容中提取的。我还有原始的 HTML 文档、被馈送到 NER 引擎的剥离所有标记的纯文本,以及字符串的偏移量/长度在剥离文件中。

我需要用突出显示的 NE 实例来注释原始 HTML 文档。为此,我需要执行以下操作:

  1. 在 HTML 文档中找到 NE 字符串的起点/终点。导致 DOM Range Object 的东西可能会很理想。

  2. 给定 Range 对象,对范围应用样式(可能使用类似 <span class="ne-person" data-ne="123">...</span> 的样式)。这很棘手,因为不能保证范围不会包含多个 DOM 元素( <a><strong> 等),并且跨度需要在每个包含元素内正确开始/停止,所以我不会结束完全伪造的 HTML。

欢迎任何解决方案(全部或部分)。后端多为Python/Django,前端使用jQuery。我们宁愿在后端执行此操作,但我对任何事情都持开放态度。

(我对如何标记这个问题有点不确定,所以请随意重新标记它。)

最佳答案

使用 range utility method加上注释库,例如以下之一:

关于html - 将纯文本映射回 HTML 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11057113/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com