gpt4 book ai didi

python - 从 pandas 数据框中的字符串中删除特定 url

转载 作者:太空宇宙 更新时间:2023-11-03 20:46:33 24 4
gpt4 key购买 nike

我有一个数据框:

Name  url

A 'https://foo.com, https://www.bar.org, https://goo.com'
B 'https://foo.com, https://www.bar.org, https://www.goo.com'
C 'https://foo.com, https://www.bar.org, https://goo.com'

然后是关键字列表:

keyword_list = ['foo','bar']

我正在尝试删除包含关键字的网址,同时保留不包含关键字的网址,到目前为止,这是唯一对我有用的方法,但它只是删除了该单词的实例:

df['url'] = df['url'].str.replace('|'.join(keywordlist), ' ')

我尝试将字符串中的元素转换为列表,但是当将其与较大的数据帧组合回其部分时,出现索引错误,有人以前遇到过这种情况吗?

期望的输出:

Name  url

A 'https://goo.com'
B 'https://www.goo.com'
C 'https://goo.com'

最佳答案

我很确定你可以使用一些正则表达式来做到这一点。但你也可以这样做:

new_df = df.set_index('Name').url.str.split(',\s+', expand=True).stack()

(new_df[~new_df.str.contains('|'.join(keyword_list))]
.reset_index(level=1, drop=True)
.to_frame(name='url')
.reset_index()
)

输出:

  Name                  url
0 A https://goo.com
1 B https://www.goo.com
2 C https://goo.com

关于python - 从 pandas 数据框中的字符串中删除特定 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56550652/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com