gpt4 book ai didi

regex - 从大文本文件中获取链接列表

转载 作者:行者123 更新时间:2023-12-02 17:58:04 25 4
gpt4 key购买 nike

我有一个巨大的文本文件,超过 20k 行,我想从中提取链接。

我需要的是一个生成干净链接列表的正则表达式。

我需要的链接以 http:// 开头(不带 www),以 .html 结尾

表达式会是什么样子?

最佳答案

对于以 .html 页面结尾的全局网站来说,看起来像这样:

(http|https)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,}.+[a-zA-Z0-9\-\.].html

并完全匹配您指定的内容:

http\://[a-zA-Z0-9\-]+\.+[a-z]{2,}\/[a-zA-Z0-9\-]+.html

只需在新文件中按 Ctrl+X 和 Ctrl+V 即可。

适用于 JavaScript 和 Notepad++ 等。

\b 用于仅搜索整个单词的单词边界,因此如果文本中只有这个单词,如下所示: ewkgml http://test.com/a.html lamklwmwtmk 它会找到它,而 \B 是它的否定,因此 wegniwgnwkjnhttp://test.com/a.htmllmwtlkmt34lt 也可以工作。 |or 语句。

关于regex - 从大文本文件中获取链接列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22997773/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com