- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在处理 CSV 文件。
id gender disease read write science
1. 11 male cancer, diabetes 34 46 39
2. 20 male diabetes 60 52 61
3. 12 male diabetes 37 44 39
4. 16 male cancer 47 31 36
5. 7 male diabetes 57 54 47
6. 21 male diabetes 44 44 50
7. 15 male diabetes 39 39 26
8. 22 male diabetes 42 39 56
9. 9 male cancer 48 49 44
10. 18 male diabetes 50 33 44
11. 5 male diabetes 47 40 .
12. 14 male diabetes 47 41 42
13. 3 male diabetes 63 65 63
14. 24 male fever 52 62 47
15. 8 female diabetes 39 44 44
16. 1 female cancer 34 44 39
17. 4 female diabetes 44 50 39
18. 2 female diabetes 39 41 42
19. 19 female cancer 28 46 44
20. 17 female diabetes 47 57 44
21. 6 female diabetes 47 41 40
22. 10 female diabetes 47 54 53
23. 13 female diabetes 47 46 47
24. 23 female diabetes 65 65 58
25. 25 female Breast cancer 47 44 42
我想获取人们患有癌症的所有行。有些人患有糖尿病和癌症,因此我也必须对其进行过滤。结果应该是:
1. 11 male cancer, diabetes 34 46 39
4. 16 male cancer 47 31 36
9. 9 male cancer 48 49 44
19. 19 female cancer 28 46 44
25. 25 female Breast cancer 47 44 42
import pandas as pd
import numpy as np
ppl_ve_cancer = pd.read_csv(join(dirname(__file__), 'data.csv'))
delta= pd.DataFrame.from_records(ppl_ve_cancer )
disease= delta['disease']
现在,我如何过滤“疾病列表”,过滤后,我如何获取他们行中的数据(id,gender,read,write,science)
最佳答案
这里有一个更以 pandas 为中心的方法:首先,您将所有数据作为数据框读取,创建一个 has cancer
列,然后对其进行过滤=
import StringIO
import pandas
datastring = StringIO.StringIO("""\
id,gender,disease,read,write,science
11,male,"cancer,diabetes",34,46,39
20,male,diabetes,60,52,61
12,male,diabetes,37,44,39
16,male,cancer,47,31,36
7,male,diabetes,57,54,47
21,male,diabetes,44,44,50
15,male,diabetes,39,39,26
22,male,diabetes,42,39,56
9,male,cancer,48,49,44
18,male,diabetes,50,33,44
5,male,diabetes,47,40,-999
14,male,diabetes,47,41,42
3,male,diabetes,63,65,63
24,male,fever,52,62,47
8,female,diabetes,39,44,44
1,female,cancer,34,44,39
4,female,diabetes,44,50,39
2,female,diabetes,39,41,42
19,female,cancer,28,46,44
17,female,diabetes,47,57,44
6,female,diabetes,47,41,40
10,female,diabetes,47,54,53
13,female,diabetes,47,46,47
23,female,diabetes,65,65,58
25,female,"Breast cancer",47,44,42
""")
df = pandas.read_csv(datastring, na_values=-999)
# create the `has cancer` column
df['has cancer'] = df.disease.apply(lambda row: 'cancer' in row)
# print the filtered data
print(df[df['has cancer']].to_string())
id gender disease read write science has cancer
0 11 male cancer,diabetes 34 46 39 True
3 16 male cancer 47 31 36 True
8 9 male cancer 48 49 44 True
15 1 female cancer 34 44 39 True
18 19 female cancer 28 46 44 True
24 25 female Breast cancer 47 44 42 True
关于python - 使用 Python/numpy 过滤 CSV 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21011571/
作为脚本的输出,我有 numpy masked array和标准numpy array .如何在运行脚本时轻松检查数组是否为掩码(具有 data 、 mask 属性)? 最佳答案 您可以通过 isin
我的问题 假设我有 a = np.array([ np.array([1,2]), np.array([3,4]), np.array([5,6]), np.array([7,8]), np.arra
numpy 是否有用于矩阵模幂运算的内置实现? (正如 user2357112 所指出的,我实际上是在寻找元素明智的模块化减少) 对常规数字进行模幂运算的一种方法是使用平方求幂 (https://en
我已经在 Numpy 中实现了这个梯度下降: def gradientDescent(X, y, theta, alpha, iterations): m = len(y) for i
我有一个使用 Numpy 在 CentOS7 上运行的项目。 问题是安装此依赖项需要花费大量时间。 因此,我尝试 yum install pip install 之前的 numpy 库它。 所以我跑:
处理我想要旋转的数据。请注意,我仅限于 numpy,无法使用 pandas。原始数据如下所示: data = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
numpy.random.seed(7) 在不同的机器学习和数据分析教程中,我看到这个种子集有不同的数字。选择特定的种子编号真的有区别吗?或者任何数字都可以吗?选择种子数的目标是相同实验的可重复性。
我需要读取存储在内存映射文件中的巨大 numpy 数组的部分内容,处理数据并对数组的另一部分重复。整个 numpy 数组占用大约 50 GB,我的机器有 8 GB RAM。 我最初使用 numpy.m
处理我想要旋转的数据。请注意,我仅限于 numpy,无法使用 pandas。原始数据如下所示: data = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
似乎 numpy.empty() 可以做的任何事情都可以使用 numpy.ndarray() 轻松完成,例如: >>> np.empty(shape=(2, 2), dtype=np.dtype('d
我在大型 numpy 数组中有许多不同的形式,我想使用 numpy 和 scipy 计算它们之间的边到边欧氏距离。 注意:我进行了搜索,这与堆栈中之前的其他问题不同,因为我想获得数组中标记 block
我有一个大小为 (2x3) 的 numpy 对象数组。我们称之为M1。在M1中有6个numpy数组。M1 给定行中的数组形状相同,但与 M1 任何其他行中的数组形状不同。 也就是说, M1 = [ [
如何使用爱因斯坦表示法编写以下点积? import numpy as np LHS = np.ones((5,20,2)) RHS = np.ones((20,2)) np.sum([ np.
假设我有 np.array of a = [0, 1, 1, 0, 0, 1] 和 b = [1, 1, 0, 0, 0, 1] 我想要一个新矩阵 c 使得如果 a[i] = 0 和 b[i] = 0
我有一个形状为 (32,5) 的 numpy 数组 batch。批处理的每个元素都包含一个 numpy 数组 batch_elem = [s,_,_,_,_] 其中 s = [img,val1,val
尝试为基于文本的多标签分类问题训练单层神经网络。 model= Sequential() model.add(Dense(20, input_dim=400, kernel_initializer='
首先是一个简单的例子 import numpy as np a = np.ones((2,2)) b = 2*np.ones((2,2)) c = 3*np.ones((2,2)) d = 4*np.
我正在尝试平均二维 numpy 数组。所以,我使用了 numpy.mean 但结果是空数组。 import numpy as np ws1 = np.array(ws1) ws1_I8 = np.ar
import numpy as np x = np.array([[1,2 ,3], [9,8,7]]) y = np.array([[2,1 ,0], [1,0,2]]) x[y] 预期输出: ar
我有两个数组 A (4000,4000),其中只有对角线填充了数据,而 B (4000,5) 填充了数据。有没有比 numpy.dot(a,b) 函数更快的方法来乘(点)这些数组? 到目前为止,我发现
我是一名优秀的程序员,十分优秀!