gpt4 book ai didi

ruby - 用于识别页面上最大文本的 Nokogiri 策略?

转载 作者:太空宇宙 更新时间:2023-11-03 16:04:28 25 4
gpt4 key购买 nike

我正在对一堆实际着陆页进行比较。我试图提取主标题和号召性用语,但页面的 HTML 格式当然千差万别。

我开始寻找 H1、H2 等,假设标题标签对应于首要位置,但通常情况并非如此。呈现的字体大小* 可能是一个更好的指标,但这看起来很困惑,并且无法处理使用带有 alt 标签的图像的情况。

使用 Nokogiri 识别 100 个野着陆页的主标题的好策略是什么?

*还有-是否有一个聪明的选择器来选择呈现的字体大小?

最佳答案

除非您运行的 AI 可以确定文档中语义最重要的部分,否则您无法做到这一点。

您不能指望标签,例如 header 或元标签,因为它们可能会完全丢失。

您不能指望源代码中的位置,因为 CSS 可以将内容移动到任何地方。

而且,即使您认为您已经通过查看 CSS 确定了它,JavaScript 也可以从您那里夺走这个现实,因为它可以覆盖一切,依赖于这样一个事实,即它需要人的眼睛和大脑来理解最终呈现的页面。

所以,基本上,除非您拥有可以理解页面内容并确定单词出现频率及其同义词和词根的代码,然后确定CSS 和 JavaScript 运行后它们在页面上的位置。

这确实是一项艰巨的任务,很多大公司都在投入大量资金。

关于ruby - 用于识别页面上最大文本的 Nokogiri 策略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17394406/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com