Python pandas - value_counts 无法正常工作-6ren

Python pandas - value_counts 无法正常工作

转载作者：太空宇宙更新时间：2023-11-03 17:11:01

24

4

基于this在堆栈上发布我尝试了像这样的值计数函数

df2 = df1.join(df1.genres.str.split(",").apply(pd.value_counts).fillna(0))

除了以下事实之外，它工作得很好:尽管我的数据有 22 个独特的流派，并且在分割后我得到了 42 个值，这当然不是唯一的。数据示例:

     Action  Adventure   Casual  Design & Illustration   Early Access    Education   Free to Play    Indie   Massively Multiplayer   Photo Editing   RPG     Racing  Simulation  Software Training   Sports  Strategy    Utilities   Video Production    Web Publishing Accounting  Action  Adventure   Animation & Modeling    Audio Production    Casual  Design & Illustration   Early Access    Education   Free to Play    Indie   Massively Multiplayer   Photo Editing   RPG Racing  Simulation  Software Training   Sports  Strategy    Utilities   Video Production    Web Publishing  nan
0   nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan 1.0 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan

(我只粘贴了头部和第一行)

我感觉问题是由我的原始数据引起的。好吧，我的专栏(流派)是包含括号的列表的列表

示例:[ Action 、独立]所以当Python读取它时，它会将[Action and Action and Action]读取为不同的值，并且输出是303个不同的值。所以我所做的是:

for i in df1['genres'].tolist():
if str(i) != 'nan':

    i = i[1:-1]
    new.append(i)
else:
    new.append('nan')

最佳答案

您必须通过函数 str.strip 从列 genres 中删除第一个和最后一个 []然后通过函数 str.replace 将空格替换为空字符串

import pandas as pd

df = pd.read_csv('test/Copy of AppCrawler.csv', sep="\t")


df['genres'] = df['genres'].str.strip('[]')
df['genres'] = df['genres'].str.replace(' ', '')

df = df.join(df.genres.str.split(",").apply(pd.value_counts).fillna(0))

#temporaly display 30 rows and 60 columns
with pd.option_context('display.max_rows', 30, 'display.max_columns', 60):
    print df
    #remove for clarity
print df.columns
Index([u'Unnamed: 0', u'appid', u'currency', u'final_price', u'genres',
       u'initial_price', u'is_free', u'metacritic', u'release_date',
       u'Accounting', u'Action', u'Adventure', u'Animation&Modeling',
       u'AudioProduction', u'Casual', u'Design&Illustration', u'EarlyAccess',
       u'Education', u'FreetoPlay', u'Indie', u'MassivelyMultiplayer',
       u'PhotoEditing', u'RPG', u'Racing', u'Simulation', u'SoftwareTraining',
       u'Sports', u'Strategy', u'Utilities', u'VideoProduction',
       u'WebPublishing'],
      dtype='object')

关于Python pandas - value_counts 无法正常工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34089108/

24

4

0

文章推荐： python - 在 'df.size()' 函数后操作新列？

文章推荐： c# - 如何使用linq更改对象的值

文章推荐： c# - 拆分具有可变数量空格的字符串

python - 使用 `Dataframe.value_counts()`时不指定列名如何实现 `Series.value_counts`
比如我得到的dataframe如下: PassengerId Survived Pclass 0 1 0 3 1 2
python - value_counts 无法正常工作
我有一个数据框，我想查找每个值出现的次数。当我使用这个命令时 test = df['name'].value_counts() 我得到了正确的结果，但是当我尝试这个 df['occ'] = df['n
python - .value_counts() 给出截断的结果
我有一个 excel 文件，其中有一列包含多个单词。我正在尝试计算每个单词的出现频率。所以如果我有一个列表 Labels a a b b c c c 输出应该是 c : 3 b : 2 a : 2 我
python - 获取字典值的 value_counts()
这个问题在这里已经有了答案: How to count the same values in a dict? [duplicate] (1 个回答) 关闭 3 年前。我很熟悉如何返回value_c
python - 从部分分类列中获取 value_counts
我正在尝试使用 pandas(v0.23.4 ).当所有类别都存在时，这工作正常: import calendar import random import pandas as pd random.s
python - 如何绘制非数值数据的日期时间和 value_counts() ？
我有以下列connect_start 0 2019-01-01 00:01:44 1 2019-01-01 00:02:57 2 2019-01-01 00:24:09 3 2019-
python - 有效计算分组在一组其他分组变量中的多个独立列的 value_counts
我需要计算大量独立列中的值的计数(例如由 value_counts 表示)，这些独立列由一组固定的 2-5 个其他列分组。此练习是对多达数百万行和多达 50-100 列的数据进行数据挖掘的一部分。因此
python - 如何获取嵌套列的唯一元素的 value_counts()？
我正在尝试计算 pandas df 的嵌套列的唯一值，这是 manuel 注释的结果。假设我们有以下 df: df_test = pd.DataFrame(data=dict(x=["A","B","
pandas计数 value_counts()的使用
在pandas里面常用value_counts确认数据出现的频率。 1. Series 情况下： pandas 的 value_counts() 函数可以对Series里面的每个值进行计数并且排
python - 从多列的 value_counts 中排除项目
我得到了以下数据框: ae264e3637204a6fb9bb56bc8210ddfd ... 2906b810c7d4411798c6938adc9daaa5 1
python - 装箱 Pandas value_counts
我有一个由 df.column.value_counts().sort_index() 生成的 Pandas 系列。 | N Months | Count | |------|------| |
python - 如何存储从 value_counts() 函数返回的信息
我有以下数据框: import pandas as pd import numpy as np df_Station_Weather = pd.DataFrame(
python - value_counts() 计算数据帧中的 NaN
我创建了一个由两列组成的数据框。我想计算这两列出现的次数。数据框看起来像 - No Name 1 A 1 A 5 T 9 V Nan M 5 T 1 A 我想使用 valu
python - 为什么pandas value_counts() 显示某些值的计数为零？
我有一个数据框，其中一列是带有以下标签的分类变量:['Short', 'Medium', 'Long', 'Very Long', 'Extremely Long'] .我正在尝试创建一个新的数据框，
python - 返回 value_counts 的总和
这是我的数据框: email title id --------------------------------- balh@blah.com Title a
python - 返回 value_counts 的总和
这是我的数据框: email title id --------------------------------- balh@blah.com Title a
python - pandas value_counts 输出文件
目标我正在尝试从 value_counts() 开始，为数据框中的每一列自动生成 EDA 报告。问题问题是我的函数没有返回任何内容。因此，虽然它确实打印到控制台，但它不会将相同的输出打印到我的文
python - 调查结果的条形图为 pd.value_counts()
我进行了一项调查，答案可以是 1-7，例如“绝对不快乐”到“绝对快乐”以及介于两者之间的一切，数据是一个 pandas 系列。对它进行 data.value_counts() 会产生有序表 5.0
python - 如何根据另一个数据帧中某一列的 value_counts 但在其他列上具有某些条件来创建新数据帧？
我有一个在一组服务器上提出的票证的 pandas 数据框架，如下所示: a b c Users Problem 0 data data data U
python - 在 value_counts() 之后从分类中提取索引作为数组
自从我开始在 pandas 中使用categorical类型以来，我有一段无法工作的特定代码:(为了方便起见，我将其形成为测试): import pandas as pd import numpy a

首页

博学

6Ren·AI

商城

Python pandas - value_counts 无法正常工作