python - 如何读取和处理文件的一部分并将其余部分写入另一个文件？-6ren

python - 如何读取和处理文件的一部分并将其余部分写入另一个文件？

转载作者：行者123 更新时间：2023-12-01 01:01:24

我需要读这个csv file使用 Panda，对其执行一些处理并将其余 10% 的数据写入另一张表。

鉴于此解决方案( https://stackoverflow.com/a/55763598/3373710 )，我想在取出 10% 行后对 store_data 的其余部分进行处理，但是，elif 条件打印原始文件的相同行，我该如何修复我的条件跳过 10% 的行？

store_data = pd.read_csv("heart_disease.csv")

with open("out1.csv","w") as outfile:
    outcsv = csv.writer(outfile)
    for i, row in store_data.iterrows():
        if not i % 10: #write 10% of the file to another file
            outcsv.writerow(row)
        elif i % 10:  #I need to do some process on the rest of the file
            store_data = store_data.applymap(str)

最佳答案

简单地将数据帧分成两部分，将 10% 保存到文件中 ( dataframe.to_csv(..) ) 并将计算应用到 90% 中，这要容易得多、更清晰第二个 df。

您可以通过计算一个新列来完成此操作，该新列告诉您一行是否经过测试，然后沿着这个新列值将数据帧分成两部分:

数据文件创建:

fn = "heart_disease.csv"
with open(fn,"w") as f:
    # doubled the data provided
    f.write("""Age,AL,SEX,DIAB,SMOK,CHOL,LAD,RCA,LM
65,0,M,n,y,220,80,75,20\n45,0.2,F,n,n,300,90,35,35\n66,-1,F,y,y,200,90,80,20
70,0.2,F,n,y,220,40,85,15\n80,1.1,M,y,y,200,90,90,25\n55,0,M,y,y,240,95,45,25
90,-1,M,n,y,350,35,75,20\n88,1,F,y,y,200,40,85,20\n50,1.1,M,n,n,220,55,30,30
95,-1,M,n,y,230,75,85,15\n30,1.1,F,n,y,235,75,20,30
65,0,M,n,y,220,80,75,20\n45,0.2,F,n,n,300,90,35,35\n66,-1,F,y,y,200,90,80,20
70,0.2,F,n,y,220,40,85,15\n80,1.1,M,y,y,200,90,90,25\n55,0,M,y,y,240,95,45,25
90,-1,M,n,y,350,35,75,20\n88,1,F,y,y,200,40,85,20\n50,1.1,M,n,n,220,55,30,30
95,-1,M,n,y,230,75,85,15\n30,1.1,F,n,y,235,75,20,30
""")

程序:

import pandas as pd

fn = "heart_disease.csv"
store_data = pd.read_csv(fn)
print(store_data)

import random
import numpy as np

percentage = 0.1 
store_data["test"] = np.random.rand(len(store_data)) 

test_data = store_data[store_data.test <= percentage]
other_data = store_data[store_data.test > percentage]

print(test_data)
print(other_data)

输出:

# original data 
    Age   AL SEX DIAB SMOK  CHOL  LAD  RCA  LM
0    65  0.0   M    n    y   220   80   75  20
1    45  0.2   F    n    n   300   90   35  35
2    66 -1.0   F    y    y   200   90   80  20
3    70  0.2   F    n    y   220   40   85  15
4    80  1.1   M    y    y   200   90   90  25
5    55  0.0   M    y    y   240   95   45  25
6    90 -1.0   M    n    y   350   35   75  20
7    88  1.0   F    y    y   200   40   85  20
8    50  1.1   M    n    n   220   55   30  30
9    95 -1.0   M    n    y   230   75   85  15
10   30  1.1   F    n    y   235   75   20  30
11   65  0.0   M    n    y   220   80   75  20
12   45  0.2   F    n    n   300   90   35  35
13   66 -1.0   F    y    y   200   90   80  20
14   70  0.2   F    n    y   220   40   85  15
15   80  1.1   M    y    y   200   90   90  25
16   55  0.0   M    y    y   240   95   45  25
17   90 -1.0   M    n    y   350   35   75  20
18   88  1.0   F    y    y   200   40   85  20
19   50  1.1   M    n    n   220   55   30  30
20   95 -1.0   M    n    y   230   75   85  15
21   30  1.1   F    n    y   235   75   20  30

# data  with test <= 0.1
    Age   AL SEX DIAB SMOK  CHOL  LAD  RCA  LM      test
3    70  0.2   F    n    y   220   40   85  15  0.093135
10   30  1.1   F    n    y   235   75   20  30  0.021302

# data with test > 0.1
    Age   AL SEX DIAB SMOK  CHOL  LAD  RCA  LM      test
0    65  0.0   M    n    y   220   80   75  20  0.449546
1    45  0.2   F    n    n   300   90   35  35  0.953321
2    66 -1.0   F    y    y   200   90   80  20  0.928233
4    80  1.1   M    y    y   200   90   90  25  0.672880
5    55  0.0   M    y    y   240   95   45  25  0.136537
6    90 -1.0   M    n    y   350   35   75  20  0.439261
7    88  1.0   F    y    y   200   40   85  20  0.935340
8    50  1.1   M    n    n   220   55   30  30  0.737416
9    95 -1.0   M    n    y   230   75   85  15  0.461699
11   65  0.0   M    n    y   220   80   75  20  0.548624
12   45  0.2   F    n    n   300   90   35  35  0.679861
13   66 -1.0   F    y    y   200   90   80  20  0.195141
14   70  0.2   F    n    y   220   40   85  15  0.997854
15   80  1.1   M    y    y   200   90   90  25  0.871436
16   55  0.0   M    y    y   240   95   45  25  0.907141
17   90 -1.0   M    n    y   350   35   75  20  0.295690
18   88  1.0   F    y    y   200   40   85  20  0.970249
19   50  1.1   M    n    n   220   55   30  30  0.566218
20   95 -1.0   M    n    y   230   75   85  15  0.545188
21   30  1.1   F    n    y   235   75   20  30  0.217490

它是随机的，您可能会获得恰好 10% 的数据 - 或者您可以获得少于/多于 10% - 数据越大，您就越接近 10%。

您可以使用“派生”数据帧将数据存储到测试数据中，并使用 df.to_csv 来存储其他数据。

对于纯 pandas 解决方案 How do I create test and train samples from one dataframe with pandas?与您的重复，但您似乎单独处理 csv，因此不确定它是否适用。

关于python - 如何读取和处理文件的一部分并将其余部分写入另一个文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55771953/

文章推荐： jquery - 检查 jquery 中列表项是否有超过 1 个直接跨子项

文章推荐： jquery - 从红色到绿色的渐变效果很好吗？

文章推荐： python - 如何使用相对路径从包内的模块内部打开文件？

文章推荐： python - tensorflow 2.0 阿尔法。问题 keras 未找到

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

python - 如何读取和处理文件的一部分并将其余部分写入另一个文件？