web-scraping - 使用 scraper crate 检索兄弟元素-6ren

web-scraping - 使用 scraper crate 检索兄弟元素

转载作者：行者123 更新时间：2023-12-05 09:34:23

26

4

在学习 Rust 的过程中，我正在尝试构建一个简单的网络抓取工具。我的目标是抓取 https://news.ycombinator.com/并获取标题、超链接、投票和用户名。为此，我正在使用外部库 reqwest 和 scraper，并编写了一个程序来从该站点抓取 HTML 链接。

Cargo.toml

[package]
name = "stackoverflow_scraper"
version = "0.1.0"
edition = "2018"

# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html

[dependencies]
scraper = "0.12.0"
reqwest = "0.11.2"
tokio = { version = "1", features = ["full"] }
futures = "0.3.13"

src/main.rs

use scraper::{Html, Selector};
use reqwest;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    let url = "https://news.ycombinator.com/";
    let html = reqwest::get(url).await?.text().await?;
    let fragment = Html::parse_fragment(html.as_str());
    let selector = Selector::parse("a.storylink").unwrap();

    for element in fragment.select(&selector) {
        println!("{:?}",element.value().attr("href").unwrap());
        // todo println!("Title");
        // todo println!("Votes");
        // todo println!("User");
    }

    Ok(())
}

如何获取对应的标题、投票数和用户名？

最佳答案

首页上的项目存储在 table 中与类 .itemlist .

因为每个项目都是由三个连续的 <tr> 组成的，您必须以三个为一组对它们进行迭代。我选择先收集所有节点。

第一行包含:

职位
域名

第二行包含:

积分
作者
邮寄年龄

第三行是一个应该被忽略的间隔符。

注意:

最近一个小时内创建的帖子似乎不显示任何积分，因此需要相应处理。
广告不包含用户名。
最后两个表格行，tr.morespace和 tr包含 a.morelink应该被忽略。这就是为什么我选择先 .collect()节点，然后使用 .chunks_exact() .

use reqwest;
use scraper::{Html, Selector};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    let url = "https://news.ycombinator.com/";
    let html = reqwest::get(url).await?.text().await?;
    let fragment = Html::parse_fragment(html.as_str());

    let selector_items = Selector::parse(".itemlist tr").unwrap();

    let selector_title = Selector::parse("a.storylink").unwrap();
    let selector_score = Selector::parse("span.score").unwrap();
    let selector_user = Selector::parse("a.hnuser").unwrap();

    let nodes = fragment.select(&selector_items).collect::<Vec<_>>();

    let list = nodes
        .chunks_exact(3)
        .map(|rows| {
            let title_elem = rows[0].select(&selector_title).next().unwrap();
            let title_text = title_elem.text().nth(0).unwrap();
            let title_href = title_elem.value().attr("href").unwrap();

            let score_text = rows[1]
                .select(&selector_score)
                .next()
                .and_then(|n| n.text().nth(0))
                .unwrap_or("0 points");

            let user_text = rows[1]
                .select(&selector_user)
                .next()
                .and_then(|n| n.text().nth(0))
                .unwrap_or("Unknown user");

            [title_text, title_href, score_text, user_text]
        })
        .collect::<Vec<_>>();

    println!("links: {:#?}", list);

    Ok(())
}

这应该为您提供以下列表:

[
    [
        "Docker for Mac M1 RC",
        "https://docs.docker.com/docker-for-mac/apple-m1/",
        "327 points",
        "mikkelam",
    ],
    [
        "A Mind Is Born – A 256 byte demo for the Commodore 64 (2017)",
        "https://linusakesson.net/scene/a-mind-is-born/",
        "226 points",
        "matthewsinclair",
    ],
    [
        "Show HN: Video Game in a Font",
        "https://www.coderelay.io/fontemon.html",
        "416 points",
        "ghub-mmulet",
    ],
    ...
]

或者，可以使用一个可用的 API:

GitHub, HackerNews API

关于web-scraping - 使用 scraper crate 检索兄弟元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66711259/

26

4

0

文章推荐： javascript - ("[object Promise]") 无法序列化为 JSON

文章推荐： c - 将 foo(int *) 作为参数传递给 X 中的 foo(void*)

文章推荐： python - 在 pandas 的 to_markdown() 中抑制科学记数法

文章推荐： Flutter - 'showSnackBar' 已弃用 - 如何更新？

screen-scraping - Perl : HTML Scraping from an Authenticated website
虽然 HTML Scraping 从我所看到的内容中得到了很好的记录，并且我了解它的概念和实现，但是从隐藏在身份验证表单后面的内容中进行抓取的最佳方法是什么。我指的是从我合法访问的内容中抓取，因此我正
python - 抓取 : scraped links - now unable to scrape and dump html files into a folder
使用 Python、Selenium、Sublime 和 Firefox:我正在从这个网站上抓取链接，并想将抓取的页面(作为 html 文件)保存到一个文件夹中。但是，我已经工作了好几天，试图将这些
javascript - Python : How to scrape a page to get an information that will be used to scrape another one, 等等？
我需要构建一个 python 脚本，旨在抓取网页以检索“显示更多”按钮中的数字。此数字将用作请求 URL 的参数，该 URL 将返回包含数据 + 数字的 JSON。最后一个数字将用作请求 URL 的
web-scraping - 如何使用剧作家捕捉特定的重定向？
当 Google map 在某种程度上确认某个地点搜索时，它会重定向到特定的 Google 地点 url，否则它会返回 map 搜索结果页面。谷歌地图搜索“manarama”是 https://ww
web-scraping - 如何根据亚马逊的位置抓取数据？
每当我想在 amazon.com 上抓取时，我都会失败。因为产品信息会根据 amazon.com 中的位置而变化这个变化信息如下； 1-价格 2-运费 3-海关费用 4-发货状态用selenium
web-scraping - 设置代理隐藏我的IP地址以使用scrapy抓取网页
我正在使用scrapy来抓取网站，现在我需要设置代理处理已发送的请求。谁能帮我在scrapy应用程序中解决这个设置代理。如果有，也请提供任何示例链接。我需要解决这个请求来自哪个 IP 的问题。最佳答
web-scraping - 如何防止在抓取亚马逊时被列入黑名单
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
screen-scraping - 识别恶意网络爬虫
我想知道是否有任何技术可以识别收集信息以供非法使用的网络爬虫。通俗地说，数据盗窃是为了创建一个网站的副本。理想情况下，该系统会检测来自未知来源的抓取模式(如果 Google 抓取工具不在列表中，等等
web-scraping - 使用Disqus从网站检索评论
我想编写一个抓取脚本来检索cnn文章中的评论。例如，本文:http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1
web-scraping - 如何提取Instagram数据
我正在尝试构建Instagram帐户的Microsoft Access数据库，并希望提取以下数据以及其他信息: 帐户名关注者数量关注的人数帖子数(及其日期) 图片的赞数图片上的评论数量我在构
web-scraping - 如何在Scrapy中处理429个请求过多？
我正在尝试运行一个爬虫，其输出日志如下所示: 2017-04-25 20:22:22 [scrapy.spidermiddlewares.httperror] INFO: Ignoring respo
web-scraping - 网络抓取是否合法？
我想抓取一个网站，该网站的网页上有他们商店的所有联系方式，我可以手动记下这些信息，因此抓取该网站是合法的还是非法的。最佳答案是的，除非您不道德地使用它。 Web 抓取就像世界上的任何工具一样。您可
screen-scraping - 如何使用jsoup用span标签替换单词？
假设我有以下 html: I am going by flying mr tt 文本节点中任何等于或大
web-scraping - 有什么方法可以提取网页收到的浏览量？
寻找任何工具(最好在 python 中)来提取特定网页收到的浏览次数。如果没有，也很方便知道我是否可以获得任何其他网页特定的分析(例如列出的那个) 最佳答案除非您拥有此特定网页，否则无法查看它获得了
screen-scraping - 抓取网页内容
我刚刚开始研究这个，我想将我的 Netgear 路由器 ( http://192.168.0.1/setup.cgi?next_file=stattbl.htm ) 统计数据刮到一个 csv 文件中。
web-scraping - 防止网页抓取
我目前是开发包含前端客户端的应用程序的团队的一员。我们通过这个客户端发送用户数据，每个用户都有一个用户 ID，客户端通过 RESTful API 与我们的服务器对话，向服务器询问数据。例如，假设我
web-scraping - 下载所有已发表的摘要
有谁知道我如何轻松下载所有已发表的文章摘要？我正在做一个文本挖掘项目。我能找到的最接近的一个可以在给定 pmid 的情况下一次下载一个摘要，但这对我的目的来说太慢了，因为我必须一次下载一个。最佳答
web-scraping - 使用美丽汤的请求被阻止
当我使用Beautiful Soup发出请求时，我被阻止为“机器人”。 import requests from bs4 import BeautifulSoup reddit1Link = requ
screen-scraping - 允许抓取结果的搜索引擎？
由于网站抓取 Google、Bing 等违反了他们的服务条款，我想知道是否有任何搜索引擎可以抓取结果？最佳答案为什么要刮？为什么不使用支持的 API？ http://code.google.com
web-scraping - 从链接创建摘要
许多页面(facebook、google+ 等)都有一个功能，可以创建带有标题、图像和来自链接的一些文本的摘要。我试图找出是否有任何关于如何执行此类功能的库或指南，但我的搜索结果根本没有帮助。我知道

首页

博学

6Ren·AI

商城

web-scraping - 使用 scraper crate 检索兄弟元素