gpt4 book ai didi

html - 如何从 html 文件中获取 "pull"特定数据并处理数据

转载 作者:数据小太阳 更新时间:2023-10-29 08:54:13 24 4
gpt4 key购买 nike

我是编程新手,我有一个关于如何从网站页面提取特定信息、处理数据以检查它是否满足特定参数以及存储满足参数的页面 url 的问题。

问题是这样的:

-有一个网站有几篇文章。-我希望能够列出网站上包含少于 x 个单词的文章的 url。

我不需要编码或任何方面的帮助,因为我是新手,这本质上是我学习编程的 self 练习。

我只是想知道如何解决这个问题。我知道 HTML 和最基本的 Ruby,这就是我的知识范围。

我只是不知道如何从网页中“拉取”数据。 :S 我会用什么来拉取 HTML?拉取 HTML 后我该如何处理它?将其转换为 Ruby?如果是,怎么办?

最佳答案

开始于:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri是一个用 Ruby 解析 HTML/XML 文档的库。在网页上查看有关如何安装/使用它的更多信息。

关于html - 如何从 html 文件中获取 "pull"特定数据并处理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5604552/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com