gpt4 book ai didi

javascript - 如何解析呈现的 HTML 中视觉上连贯的文本?

转载 作者:行者123 更新时间:2023-11-30 13:57:17 25 4
gpt4 key购买 nike

假设我们可以通过 Javascript 访问呈现的 DOM(例如加载页面时的开发人员控制台)。

我想以类似于我们人类视觉解释内容的方式从节点中提取文本。

例子:


<div>
<span>This</span>
<span>Text</span>
<div>
<span>belongs together</span>
</div>
</div>

我的算法应该能够将这段文本识别为一个集群,如果它在视觉上是连贯的。

因此它应该输出:"This text belongs together" 而不是 ["this, "text", "belongs together"]

任何想法如何进行?

我考虑为每个文本节点计算 boundingRect 并应用一些以视口(viewport)尺寸作为引用点的聚类算法。

最佳答案

您使用边界矩形并将它们关联起来的想法很好。

此文件来自 Chrome,spatial_navigation.cc ,您可能会感兴趣。 “空间导航”是某些浏览器中的一项功能,其中焦点不按 Tab 键顺序移动,而是在上下左右空间中移动。它类似于您的问题,因为它在 DOM 上工作,但关心链接的显示方式,而不是 DOM 的结构。

如果您检查构建空间导航的基元,它们是:

  • 边界矩形。
  • 与视口(viewport)相交。
  • 矩形是在另一个矩形的右侧还是下方。
  • 是否有东西被遮挡。

从这些原语中可以构建出更高层次的东西。

关于与视口(viewport)相交的更多详细信息:视口(viewport)是呈现内容的区域。您可以使用 window.innerWidthwindow.innerHeight 作为以像素为单位的视口(viewport)尺寸,并计算某些东西是否可见,累积它及其父级的布局和滚动偏移;或使用 Intersection Observers找出元素是否在视口(viewport)中。

关于模糊节点的更多细节:一般来说,检测模糊节点很困难。 display: none; 是一个简单的案例:这些节点的 innerWidthinnerHeight 均为 0。重叠的内容更难:检测内容如何碰撞和确定顶部内容的 z-index。最难的是近乎透明的内容,低对比度内容,以及经过严格过滤或转换的内容。

如果您遇到很多像这样棘手的情况,捕获屏幕并在其上执行 OCR 可能会更简单。这利用了浏览器的渲染管道来完成所有的转换和分层;你可以在图片中找到文字;等缺点是getDisplayMedia API 尚不能在所有浏览器中运行,它会通过提示打断用户。

您仍然可以从 OCR 算法中寻找灵感。 OCR 必须执行类似的问题:一旦识别出本地化字符,就必须将它们放入文本行中。

关于javascript - 如何解析呈现的 HTML 中视觉上连贯的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57005892/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com