gpt4 book ai didi

python - 这两种计算文本列中两个单词出现次数的方法有什么区别?

转载 作者:太空宇宙 更新时间:2023-11-04 04:20:32 25 4
gpt4 key购买 nike

我是 pandas 的新手,我现在正在 Kaggle 上学习它。

这是一个练习,要求在 description 列中找出两个词的出现次数

我从 StackOverflow 找到了第一个陈述,但第二个是正确答案。造成这种不同结果的原因是什么?

1。从 StackOverflow 找到

tropical = reviews.description.str.count("tropical").sum()
fruity = reviews.description.str.count("fruity").sum()
descriptor_counts = pd.Series([tropical,fruity])

`

2。正确答案

tropical = reviews.description.map(lambda desc: 'tropical' in desc).sum()
fruity = reviews.description.map(lambda desc: 'fruity' in desc).sum()
descriptor_counts = pd.Series([tropical, fruity],index=['tropical','fruity'])

第一个结果是[3703, 9259]第二个结果是[3607, 9090]

更新!原来的问题是:创建一个 Series descriptor_counts 来计算这两个词在数据集中的描述列中出现的次数。

最佳答案

第一个较少,因为它只获取'tropical''fruity' 的值。

所以:

>>> s='a'
>>> s=='a'
True

但是第二个是获取包含 'tropical''fruity' 的值,所以上面:

>>> s='ab'
>>> s=='a'
False

确实如此:

>>> s='ab'
>>> 'a' in s
True

关于python - 这两种计算文本列中两个单词出现次数的方法有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54566212/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com