gpt4 book ai didi

具有不同(未知)字符串匹配的正则表达式

转载 作者:数据小太阳 更新时间:2023-10-29 03:21:19 29 4
gpt4 key购买 nike

我正在尝试使用 GoColly 框架获取所有 HREF 链接,但是只允许任何域的 url 为根 URL 或子域(否路径)。我已经注释掉了我的 REGEXP。文件扩展名没有事情。我只是在“/”之后不想要任何东西。我试过使用变量“域”并连接以构建“可变”正则表达式。甚至不确定如果那是一件事。

  1. Twitter.Com - 正确
  2. hello.authac.com - 正确
  3. whole.facebook.com - 真
  4. twiiter.com/dd -FALSE
  5. hello.authac.com/sd.html 错误
  6. whole.facebook.com/sdsd/dsd/as.txt 错误

    // Main
    package main
    import (
    "log"
    "fmt"
    "time"
    //"regexp"
    "net/http"
    "github.com/gocolly/colly"
    )

    var Target string
    var Domain string


    func main() {
    //r := regexp.MustCompile("(https:" + Domain + ".com)$")


    c := colly.NewCollector(
    //colly.URLFilters(r),

    )





    c.OnError(func(r *colly.Response, err error) {
    fmt.Println(r.Request.URL, "Is Not Reachable", r.StatusCode)
    })



    // Find and visit all links
    c.OnHTML("a", func(e *colly.HTMLElement) {
    e.Request.Visit(e.Attr("href"))
    })


    c.OnRequest(func(r *colly.Request) {
    Domain := r.URL.String()
    Target := BannerGrab(Domain)
    fmt.Println(Target)
    fmt.Println("Dropping By.. ", r.URL)
    time.Sleep(1000 * time.Millisecond)
    })

    c.Visit("https://www.twitter.com/")
    }

    //CheckDB if not listed else add
    //RiskDB
    //Email


    func BannerGrab(s string) string {

    client := &http.Client{}
    req, err := http.NewRequest("GET", s, nil)
    if err != nil {
    log.Fatalln(err)
    }
    req.Header.Set("User-Agent", "Authac/0.1")
    resp, _ := client.Do(req)
    serverEntry := resp.Header.Get("Server")
    return serverEntry

    }

最佳答案

一个可能的正则表达式是:

/ ^[^\/\\]+$ / gmi

任何时候文本中有“\”或“/”时都不匹配。

关于具有不同(未知)字符串匹配的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53413766/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com