gpt4 book ai didi

python - pandas,python,excel,在 df 1 的列中搜索子字符串以将字符串写入 df2 的列

转载 作者:行者123 更新时间:2023-12-04 22:33:23 26 4
gpt4 key购买 nike

我在 python 中使用包 pandas 来处理和读取和写入 Excel 电子表格。我创建了 2 个不同的数据框(df1 和 df2),它们的单元格都是数据类型字符串。 df1 有超过 50,000 行。 df1 的每一列中有很多单元格是“Nan”,我已经转换为一个字符串,上面写着“Empty”。 df2 有超过 9000 行。 “WHSE_Nbr”和“WHSE_Desc_HR”中的每一行都包含一个准确的字符串值。在 df2 的最后 2 列中,只有一些行具有字符串“Empty”以外的值。 df1 中的“仓库”列有许多单元格,其中包含只有单词的名称。我有兴趣识别的 df1 中“仓库”列的行是包含在“WHSE_Nbr”列中的 df2 中找到的任何仓库编号的行。

Example of dataframe1 - df1
Job Warehouse GeneralDescription Purpose
Empty AP Accounts Payable Accounting
Empty Empty Empty Empty
Empty Cyber Security GA Security & Compliance Data Security
Empty Merch|04-1854 Empty Empty
Empty WH -1925 Empty Empty
Empty Montreal-10 Empty Empty
Empty canada| 05-4325 Empty Empty

Example of dataframe2 - df2


WHSE_Nbr WHSE_Desc_HR WHSE_Desc_AD WHSE_Abrv
1 Technology Tech
2 Finance
... ...
10 Recruiting Campus Outreach
1854 Community Relations
... ...
1925 HumanResources
4325 Global People
9237 International Tech

数据框2示例
df2

因此,我想遍历 df1 的“仓库列”的所有行,以搜索出现在 df2 的 WHSE_Nbr 列中的 WHSE 编号。在此示例中,我希望我的代码在 df1 的“仓库”列中找到 1854,并将该数字映射到 df2 的 WHSE_Desc_HR 列中的关联单元格,并在 df1 的“GeneralDescription”列中写入“社区关系”(到在仓库列中包含子字符串“1854”的同一行。它还会在仓库列中出现同一行子字符串“1925”的仓库列中写入“人力资源”。当迭代达到“蒙特利尔10”时,我想要我的将“Campus Outreach”写入 df1 的 GeneralDescription 列的代码,因为如果 df2 的 WHSE_Desc_AD 中有一个值,这将替代 df2 的“WHSE_Desc_HR”列中的内容。我已经对 pandas 足够熟悉,可以阅读excel文件(.xlsx)并制作数据框并更改数据框内的数据类型以用于迭代目的,查看数据框,但无法找出构建此代码以实现此目标的最有效和最有效的方法。我有编辑这个问题现在,因为我意识到我遗漏了一些非常重要的东西。每当仓库列中出现一个数字时,我要匹配的数字总是跟在连字符或破折号 (-) 之后。所以在 df1 中,写着“canada | 05-4325”的 Warehouse 行应该识别 4325,将其与 df2 匹配,并将“Global People”写入 df1 中的 GeneralDescription 列。对不起大家。非常感谢您的帮助,下面的两个答案是一个很好的开始。谢谢
import pandas as pd

excel_file='/Users/cbri/anaconda3/WHSE_gen.xlsx'
df1 = pd.read_excel(excel_file, usecols [1,5,6,7])
excel_file='/Users/cbri/PycharmProjects/True_Dept/HR_excel.xlsx'
df2 = pd.read_excel(excel_file)
df1=df1.replace(np.nan, "Empty",regex=True)
df2=df2.replace(np.nan, "Empty",regex=True)
df1=pd.DataFrame(df1, dtype='str')
df2=pd.DataFrame(df2, dtype='str')

#yeah i need a push in the right direction, guess i should use ieriterms()?
for column in df1:
if (df1['Warehouse'])
#so i got as far as returning all records that contained the substring "1854" but obviously that's without the for and if statement above
df1[df1['Warehouse'].str.contains("1854", na=False)]

最佳答案

我要做的是编写一个正则表达式来从列中提取数字并加入表格,然后在 excel 中完成其余的操作......(列更新)

df1 = pd.DataFrame({'Department' : ['Merch - 1854', '1925 - WH','Montreal 10'],'TrueDeparment' : ['Empty','empty','empty']})
df2 = pd.DataFrame({'Dept_Nbr' : [1854, 1925, 10], 'Dept_Desc_HR' : ['Community Relations','Human Resources','Recruiting']})

然后在这里您可以尝试该功能的作用:
line = 'Merch - 1854 '
match = re.search(r'[0-9]+', line)
if match is None:
print(0)
else:
print(int(match[0]))

如果您需要在评论中指定的字符之后进行匹配,请使用以下字符:
line = '12125 15151 Merch -1854 '
match = re.search(r'(?<=-)[0-9]+', line)
if match is None:
print(0)
else:
print(int(match[0]))

请注意,如果您在“-”之后有空格或其他字符,则需要将其添加到正则表达式中才能工作!

重要 - 你假设你的文本中只有一个数字 - 如果不是它返回 0 你可以改变它,因为你希望关键是至少它不会失败

编写函数:
def extract_number(field):
match = re.search(r'(?<=-)[0-9]+', field)
if match is None:
return 0
else:
return int(match[0])

适用于数据框:
 df1['num_col'] = df1[['Department']].apply(lambda row:extract_number(row['Department']),axis=1)

最后做join:
df1.merge(df2, left_on = ['num_col'], right_on = ['Dept_Nbr'])

从这里您可以确定您需要哪一列,无论是在 Python 中还是在 excel 中。

关于python - pandas,python,excel,在 df 1 的列中搜索子字符串以将字符串写入 df2 的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51197176/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com