gpt4 book ai didi

python - 用于解析网页的人工智能 (AI) 相关技术有哪些?

转载 作者:行者123 更新时间:2023-11-30 08:55:52 25 4
gpt4 key购买 nike

我想抓取几个不同的讨论论坛,其中大多数都有不同的 HTML 格式。与其剖析每个页面的 HTML,不如实现某种学习算法,该算法可以识别每个页面上的不同消息(即结构),并单独解析它们,同时忽略所有无关的废话,这会更有效(也更有趣) (即广告和其他废话)。有人可以向我指出一些已在该领域开展的工作的引用资料或示例代码吗?

此外,有人知道Arc90的可读性代码的伪代码吗?

http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/

最佳答案

构建一个解决方案:

  • 采用一些具有相同结构的示例网页(例如论坛主题)
  • 分析每个部分的 DOM 树以查找哪些部分相同/不同
  • 它们的不同之处在于您所追求的动态内容(帖子、用户名等)

这种技术称为包装归纳

关于python - 用于解析网页的人工智能 (AI) 相关技术有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7714422/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com