gpt4 book ai didi

go - 如何在 colly 中通过 id 或 class 查找一个 html 元素或一组 html 元素?

转载 作者:数据小太阳 更新时间:2023-10-29 03:21:33 33 4
gpt4 key购买 nike

我正在使用 colly用于抓取网站。在 OnHTML 回调中:

package main

import (
"fmt"
"github.com/gocolly/colly"
)

func main() {

// Instantiate default collector
c := colly.NewCollector()

// On every a element which has href attribute call callback
c.OnHTML("h3", func(e *colly.HTMLElement) {
link := e.Text
// Print link
fmt.Printf("Link found: %q -> %s\n", e.Text, link)
// Visit link found on page
// Only those links are visited which are in AllowedDomains
c.Visit(e.Request.AbsoluteURL(link))
})

// Before making a request print "Visiting ..."
c.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL.String())
})

// Start scraping on https://hackerspaces.org
c.Visit("https://bbs.archusers.ir/")
}

例如,我想获取所有带有“id Name”的 id 或获取所有带有“class Name”的。我该怎么做?!

最佳答案

我找到了答案 here .非常棒的 colly 框架教程。

OnHTML 是一个强大的工具。它可以搜索 CSS 选择器(即 div.my_fancy_class 或 #someElementId),并且您可以将多个 OnHTML 回调附加到您的收集器以处理不同的页面类型。

关于go - 如何在 colly 中通过 id 或 class 查找一个 html 元素或一组 html 元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52969550/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com