gpt4 book ai didi

html - 从 Go 中的 html 页面中提取文本

转载 作者:IT王子 更新时间:2023-10-29 01:39:45 25 4
gpt4 key购买 nike

寻找一种简单地获取网页文本的方法,最好不必求助于一堆正则表达式。

只是想我会先检查一下这种东西是否已经内置,或者至少在 Go 中更容易做到。

最佳答案

你可以使用 go-query .这个库可以像 jquery 一样用于 grep html 文档中的文本和文档元素。

本例取自github页面:

package main

import (
"fmt"
"github.com/PuerkitoBio/goquery"
"log"
)

func ExampleScrape() {
doc, err := goquery.NewDocument("http://metalsucks.net")
if err != nil {
log.Fatal(err)
}
doc.Find(".reviews-wrap article .review-rhs").Each(func(i int, s *goquery.Selection) {
band := s.Find("h3").Text()
title := s.Find("i").Text()
fmt.Printf("Review %d: %s - %s\n", i, band, title)
})
}
func main() {
ExampleScrape()
}

关于html - 从 Go 中的 html 页面中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26984312/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com