gpt4 book ai didi

regex - 在 URL 列表中查找域部分中的关键字

转载 作者:太空宇宙 更新时间:2023-11-04 04:30:01 24 4
gpt4 key购买 nike

我在一个文件中有一个很大的 URL 列表(数百万个)(每行一个),如下所示:

http://someDomain.com/articlex=123&b=23

http://KEYWORDindomain.net/blahblah

http://anotherKEYWORDindomain.org/blahblah/blip/q=123

http://blabkkk.org/KEYWORD/blip/q=123

(etc)

我想打印出某个关键字出现在 URL 的域部分中的所有 URL。

例如。

grep <regex>KEYWORD<regex> file

output
======
http://KEYWORDindomain.net/blahblah
http://anotherKEYWORDindomain.org/blahblah/blip/q=123

我认为这应该很容易用 grep 表示,但在找出正则表达式时遇到困难。也许我需要通过管道传输几个命令才能达到我想要的结果?

我得到的最接近的是: grep "http://.*\?/"

有人有使用 shell 命令执行此操作的好方法吗?

最佳答案

尝试

\b(https?|ftp|file)://[^/\s]*KEYWORD[^/\s]*(?:/[-A-Z0-9+&@#/%?=~_|$!:,.;]*[A-Z0-9+&@#/%=~_|$])?

这将匹配第一个斜杠之前的部分包含 KEYWORD 的 URL(如果有)。

关于regex - 在 URL 列表中查找域部分中的关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4356107/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com