go - Colly 找不到任何链接-6ren

go - Colly 找不到任何链接

转载作者：数据小太阳更新时间：2023-10-29 03:20:30

24

4

我之前以基本相同的方式(只是不同的域)完成了几个类似的程序，但是这次，colly 没有找到一个链接，而是在访问第一页后退出。谁能看出哪里出了问题？*注意:为了清楚地说明手头的主题，我省略了程序的某些部分。

*编辑:我找到了问题，但没有找到解决方案。运行 curl https://trendmicro.com/vinfo/us/security/research-and-analysis/threat-reports 在终端中返回 301 永久移动错误，但连接到浏览器获取我想要的页面。为什么会发生这种情况，我该如何解决？

*EDIT2:我发现执行命令 curl -L 会使 curl 跟随重定向 - 然后吐出我需要的网页。但是，我如何将其翻译成 colly？因为 colly 还在捡 301 错误。

import (
    "fmt"
    "strings"
    "github.com/gocolly/colly"
)

func main() {
    /* only navigate to links within these paths */
    tld1 := "/vinfo/us/security/research-and-analysis/threat-reports"

    c := colly.NewCollector(
        colly.AllowedDomains("trendmicro.com", "documents.trendmicro.com"),
    )

    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        link := e.Attr("href")
        fmt.Printf("Link found: %q -> %s\n", e.Text, link)
        if strings.Contains(link, tld1) {
            c.Visit(e.Request.AbsoluteURL(link))
        }
    })

    c.OnRequest(func(r * colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    c.Visit("https://trendmicro.com/vinfo/us/security/research-and-analysis/threat-reports")
}

最佳答案

我找到了解决方案。我插入了我的链接 https://trendmicro.com/vinfo/us/security/research-and-analysis/threat-reports进入https://wheregoes.com/retracer.php找到 301 重定向到的位置，却发现它在 www.到链接的开头。添加 www.到初始 c.Visit 字符串的开头和 c.AllowedDomains 部分就像一个魅力

关于go - Colly 找不到任何链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54696728/

24

4

0

文章推荐： javascript - .substring 错误 : "is not a function"

文章推荐： javascript - 模糊操作，除非使用 jQuery 单击特定元素

Go Colly 不从网站返回任何数据
我正在尝试制作一个简单的网络抓取工具，但我似乎无法从 colly 获得最简单的功能。我从 colly 文档中获取了基本示例，虽然它适用于他们使用的 hackernews.org 网站，但不适用于我试图
go - Colly 找不到任何链接
我之前以基本相同的方式(只是不同的域)完成了几个类似的程序，但是这次，colly 没有找到一个链接，而是在访问第一页后退出。谁能看出哪里出了问题？*注意:为了清楚地说明手头的主题，我省略了程序的某些部
go - 使用 Go-Colly 抓取时删除空行
我从 Go 开始，并从 Colly 开始。有人可以帮我从输出中删除空行吗？这是我的代码: package main import ( "fmt" "github.com/gocolly
json - 将 colly 包输出文本添加到 golang 中的映射
我正在用 colly 包制作一个网络抓取工具，它从网站收集 ContestName 和 ContestTime 并制作一个 json 文件。所以我喜欢这个 Contests := make(
go - go-colly:如何在c.OnResponse中获取HTML标题，以便填充结构？
如何在c.OnResponse中获取HTML.title-还是有更好的替代方法用url / title / content填充Struct 最后，我需要填充以下结构并将其发布到elasticsearc
go - 使用 Colly 框架我无法登录 Evernote 帐户
我正在使用 colly 框架来抓取网站。我正在尝试登录 Evernote 帐户以抓取一些东西。但我无法通过它。我使用“用户名”和“密码”标题来提供凭据。这是正确的方法吗？提前谢谢你。 package
go - 如何使用 Colly 在 Golang 中将字符串解析为 DOM 元素
我是 Go 的新手，我正在将它与 Colly 一起使用抓取一个网站，但我在使用 noscript 标签时遇到了一些问题，因为它没有被解析，只是作为一个字符串返回，所以我想将该字符串转换为一个 coll
python - 使用 BeautifulSoup 或 golang colly 解析 HTML 时遇到问题
FTR 我已经在这两个框架中成功地编写了很多爬虫，但我被难住了。这是我试图抓取的数据的屏幕截图(您也可以转到获取请求中的实际链接): 我尝试定位 div.section_content: import
go - 如何在 colly 中通过 id 或 class 查找一个 html 元素或一组 html 元素？
我正在使用 colly用于抓取网站。在 OnHTML 回调中: package main import ( "fmt" "github.com/gocolly/colly" ) fun

首页

博学

6Ren·AI

商城

go - Colly 找不到任何链接