gpt4 book ai didi

html-parsing - 使用 UIMA 处理 HTML

转载 作者:行者123 更新时间:2023-12-01 05:31:08 25 4
gpt4 key购买 nike

我正在尝试了解 UIMA 架构。

我想创建一个以 HTML 标记开头的管道。我需要将其剥离为纯文本,以便它可以由不同的注释器处理,如 POS、分块、实体检测等。但是我还想跟踪哪些区域对应于原始 html 标签,如链接、段落,em 等。基本上我想要一个最终的注释器,它同时利用结构注释(来自 html)和语义注释(来自其他组件)。

所以,我可以想象从一个组件开始,它去除 html 标记并添加注释以跟踪我感兴趣的标签。这样的组件是否已经存在?这似乎是很多人想要的。

如果我必须从头开始创建它,它是什么类型的组件?它不仅仅是一个直接的注释器,因为它需要更改 SOFA:它需要用纯文本替换标记。

或者我应该让它创建文档的新 View ,以便我们维护文档的标记 View 和纯 TextView ?这看起来很奇怪,考虑到我再也不会关心标记 View 了。另外,我如何确保其他注释器(我不会自己编码)在文档的纯 TextView 而不是标记 View 上运行?

最佳答案

根据标记的复杂程度,有些人使用 Apache Tika,有些人使用 Boilerpipe。

Here is a blog post来自想在 UIMA 中使用 Boilerpipe 但遇到障碍的人,因为他想将偏移量保留回 HTML。

Here is the UIMA annotator that calls tika.

关于html-parsing - 使用 UIMA 处理 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11092829/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com