gpt4 book ai didi

python - 匹配 pandas 列中的 url 模式

转载 作者:太空宇宙 更新时间:2023-11-03 14:47:06 32 4
gpt4 key购买 nike

我目前正在制作一个包含大量链接的 drop。到目前为止,我想过滤指向网站列表的链接。所以我写了一个数组,其中包含每个网站的 xxx 值:www.xxx.de/com/whatever我想要做的是用数组中的值检查每个列条目。

list = ['forbes','bloomberg',...]
map = df['URL'].match(list)
df['URL'] = df.apply(map)

不知何故以这种方式。我只是不太确定如何使用列中的链接,因为我以前从未使用过字符串。链接格式如下:

www.forbes.com/.../...

有没有不使用 urlparse 或类似工具来完成这项工作的简单方法?

非常感谢您的帮助!

最佳答案

我相信你需要extract对于新列:

df = pd.DataFrame({'URL':['www.forbes.com/.../...',
'www.bloomberg.com/something',
'www.webpage.com/something']})


L = ['forbes','bloomberg']
df['new'] = df['URL'].str.extract("(" + "|".join(L) +")", expand=False)
print (df)
URL new
0 www.forbes.com/.../... forbes
1 www.bloomberg.com/something bloomberg
2 www.webpage.com/something NaN

但是如果只想过滤行,请使用 contains :

df = df[df['URL'].str.contains("|".join(L))]
print (df)
URL
0 www.forbes.com/.../...
1 www.bloomberg.com/something

关于python - 匹配 pandas 列中的 url 模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48440357/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com