gpt4 book ai didi

python - 用数字序列替换字符串的给定程序应该用 Pandas 编写

转载 作者:太空宇宙 更新时间:2023-11-03 14:41:08 25 4
gpt4 key购买 nike

大家好,我有一个程序可以读取 csv 文件并将字符串替换为数字序列,它还有其他列,如日期/时间,必须打印日期仅适用于该程序的所有操作,但我想在 Pandas 数据框中使用该程序,请有人可以使用此代码并使用 pandas 的所有操作我对 Pandas 的了解较少我会非常感谢你..谢谢

这是代码

with open(tempFile, 'r',encoding="utf8") as csvfile:
# creating a csv reader object
reader = csv.DictReader(csvfile, delimiter=',')
# next(reader, None)

'''We then restructure the data to be a set of keys with list of values {key_1: [], key_2: []}:'''
data = {}
for row in reader:
# print(row)
for header, value in row.items():
try:
data[header].append(value)
except KeyError:
data[header] = [value]

'''Next we want to give each value in each list a unique identifier.'''
# Loop through all keys
for key in data.keys():
values = data[key]

things = list(sorted(set(values), key=values.index))

for i, x in enumerate(data[key]):
if data[key][i] == "":
data[key][i] = datetime.datetime.now().isoformat()

with open('ram5.csv', "w") as outfile:
writer = csv.writer(outfile)
# Write headers
writer.writerow(data.keys())
# Make one row equal to one value from each list
rows = zip(*data.values())
# Write rows
writer.writerows(rows)

这是输入数据:

job_Id      Name        Address     Email            Date/Time
1 snehil singh marathalli ss@gmail.com 12/10/2011:02:03:20
2 salman marathalli ss@gmail.com 12/11/2011:03:10:20
3 Amir HSR ar@gmail.com
4 Rakhesh HSR rakesh@gmail.com 09/12/2010:02:03:55
5 Ram marathalli r@gmail.com
6 Shyam BTM ss@gmail.com 12/11/2012:01:03:20
7 salman HSR ss@gmail.com
8 Amir BTM ar@gmail.com 07/10/2013:04:02:30
9 snehil singh Majestic sne@gmail.com 03/03/2018:02:03:20

这是期望的输出:

job_Id  Name    Address Email   Date/Time

1 1 1 1 12/10/2011

2 2 1 1 12/11/2011

3 3 2 2 11/02/2018

4 4 2 3 09/12/2010

5 5 1 4 11/02/2018

6 6 3 1 12/11/2012

7 2 2 1 11/02/2018

8 3 3 2 07/10/2013

9 1 4 5 03/03/2018

注意:空的日期/时间列被替换为当前日期 ...所以在这个程序中我得到所有需要的数据都是正确的,上面的输出是程序的输出我已经写了。但想使用 Pandas dataframe 编写整个程序..请帮助大家,任何帮助都是可观的..thnx

最佳答案

使用split使用 str[0] 选择第一个列表并替换为日期时间转换为 Timestamp.strftime 的字符串:

now = pd.datetime.now().strftime('%d/%m/%Y')
df['Date/Time'] = df['Date/Time'].str.split(':').str[0].fillna(now)

替代方法是转换列 to_datetime , 将缺失值替换为 now 和 last 通过 Series.dt.strftime 将其转换为字符串:

df['Date/Time'] = (pd.to_datetime(df['Date/Time'], format='%d/%m/%Y:%H:%M:%S')
.fillna(pd.datetime.now())
.dt.strftime('%d/%m/%Y'))

然后使用factorizeapply用于处理多列:

cols = ['Name','Address','Email']
df[cols] = df[cols].apply(lambda x: pd.factorize(x)[0] + 1)
print (df)
job_Id Name Address Email Date/Time
0 1 1 1 1 12/10/2011
1 2 2 1 1 12/11/2011
2 3 3 2 2 02/11/2018
3 4 4 2 3 09/12/2010
4 5 5 1 4 02/11/2018
5 6 6 3 1 12/11/2012
6 7 2 2 1 02/11/2018
7 8 3 3 2 07/10/2013
8 9 1 4 5 03/03/2018

关于python - 用数字序列替换字符串的给定程序应该用 Pandas 编写,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53114814/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com