python - 使用 Panda 在 Python 中根据名称查找值之间的关系-6ren

python - 使用 Panda 在 Python 中根据名称查找值之间的关系

转载作者：行者123 更新时间：2023-12-03 14:21:23

我想根据以下规则按名称建立值之间的关系:
1- 我有一个包含大量值的 CSV 文件(超过 100000 行)，我分享了一些示例，如下所示:

    Name:
A02-father
A03-father
A04-father
A05-father
A07-father
A08-father
A09-father
A17-father
A18-father
A20-father
A02-SA-A03-SA
A02-SA-A04-SA
A03-SA-A02-SA
A03-SA-A05-SA
A03-SA-A17-SA
A04-SA-A02-SA
A04-SA-A09-SA
A05-SA-A03-SA
A09-SA-A04-SA
A09-SA-A20-SA
A17-SA-A03-SA
A17-SA-A18-SA
A18-SA-A17-SA
A20-SA-A09-SA
A05-NA
B02-Father
B04-Father
B06-Father
B02-SA-B04-SA
B04-SA-BO2-SA
B04-SA-B06-SA
B06-SA-B04-SA
B06-NA

2- 现在我有另一个 CSV 文件，它让我知道我应该从哪个值开始？在这种情况下，该值为
A03-father & B02-father & ... 相互之间没有任何影响，而且都有各自的路径，所以对于每条路径，我们将从提到的起点开始。
父亲.csv
A03-父亲
B02-父亲
....
3-根据我想建立关系的命名，由于A03-Father已被确定为Father，我应该检查以A03开头的任何值。(所有这些都是A0的婴儿。)
此外，由于 B02 是父亲，我们将检查以 B02 开头的任何值。 (B02-SA-B04-SA)
4- 现在如果我发现 A03-SA- A02 -SA，这是A03的宝贝。
我找到了 A03-SA- A05 -SA，这是A03的宝贝。
我找到了 A03-SA- A17 -SA，这是A03的宝贝。
之后我必须检查以 A02 & A05 & A17 开头的任何节点:
正如你看到的 A02-Father 存在所以它是父亲，现在我们将搜索任何以 A02 和 开头的字符串。没有被检测为父亲的 A03(必须忽略)
这必须检查直到 CSV 文件中存在的值结束。
如您所见，我应该根据名称(REGEX)检查路径，并且应该前进到路径末尾。
预期结果:

    Father      Baby
A03-father   A03-SA-A02-SA
A03-father   A03-SA-A05-SA
A03-father   A03-SA-A17-SA
A02-father   A02-SA-A04-SA
A05-father   A05-NA
A17-father   A17-SA-A18-SA
A04-father   A04-SA-A09-SA
A02-father   A02-SA-A04-SA
A09-father   A09-SA-A20-SA
B02-father   B02-SA-B04-SA
B04-father   B04-SA-B06-SA
B06-father   B06-NA

我用 Pandas 编码如下:

import pandas as pd
import numpy as np
import re

#Read the file which consists of all Values
df = pd.read_csv("C:\\total.csv")


#Read the file which let me know who is father
Fa = pd.read_csv("C:\\Father.csv")

#Get the first part of Father which is A0
Fa['sub'] = Fa['Name'].str.extract(r'(\w+\s*)', expand=False)
r2 = []

#check in all the csv file and find anything which starts with A0 and is not Father
for f in Fa['sub']:
     baby=(df[df['Name'].str.startswith(f) & ~df['Name'].str.contains('Father')])
     baby['sub'] = bay['Name'].str.extract(r'(\w+\s*)', expand=False)
     r1= pd.merge(Fa, baby, left_on='sub', right_on='sub',suffixes=('_f', '_c'))
     r2.append(result1)
out_df = pd.concat(result2)
out_df= out_df.replace(np.nan, '', regex=True)
#find A0-N-A2-M and A0-N-A4-M
out_df.to_csv('C:\\child1.csv')



#check in all the csv file and find anything which starts with the second part of child1 which is A2 and A4
out_df["baby2"] = out_df['Name_baby'].str.extract(r'^(?:[^-]*-){2}\s*([^-]+)', expand=False)
baby3= out_df["baby2"]
r4 = []
for f in out_df["baby2"]:
    #I want to exclude A0 which has been detected.
     l = ['A0']  
     regstr = '|'.join(l)
     baby1=(df[df['Name'].str.startswith(f) & ~df['Name'].str.contains(regstr)])
     baby1['sub'] = baby1['Name'].str.extract(r'(\w+\s*)', expand=False)

     r3= pd.merge(baby3, baby1, left_on='baby2', right_on='sub',suffixes=('_f', '_c'))
     r4.append(r3)
out2_df = pd.concat(r4)
out2_df.to_csv('C:\\child2.csv')

我想将下面的代码放在一个循环中并遍历文件并检查它，基于命名过程并检测其他父亲和婴儿直到完成。但是，此代码不是自定义的，并且没有我预期的确切结果。
我的问题是如何制作循环？
我应该通过路径并考虑regstr任何字符串的值。

#check in all the csv file and find anything which starts with the second part of child1 which is A2 and A4

out_df["baby2"] = out_df['Name_baby'].str.extract(r'^(?:[^-]*-){2}\s*([^-]+)', expand=False)
baby3= out_df["baby2"]
r4 = []
for f in out_df["baby2"]:
    #I want to exclude A0 which has been detected. 
     l = ['A0']  
     regstr = '|'.join(l)
     baby1=(df[df['Name'].str.startswith(f) & ~df['Name'].str.contains(regstr)])
     baby1['sub'] = baby1['Name'].str.extract(r'(\w+\s*)', expand=False)

     r3= pd.merge(baby3, baby1, left_on='baby2', right_on='sub',suffixes=('_f', '_c'))
     r4.append(r3)
out2_df = pd.concat(r4)
out2_df.to_csv('C:\\child2.csv')

最佳答案

从 import collections 开始(很快就会需要)。
我假设您已经阅读了 df 和 Fa DataFrames。
我的代码的第一部分是创建子系列(索引 - 父级，
值(value) - child ):

isFather = df.Name.str.contains('-father', case=False)
dfChildren = df[~isFather]
key = []; val = []
for fath in df[isFather].Name:
    prefix = fath.split('-')[0]
    for child in dfChildren[dfChildren.Name.str.startswith(prefix)].Name:
        key.append(prefix)
        val.append(child)
children = pd.Series(val, index=key)

打印 child 以查看结果。
第二部分是创建实际结果，从每个
法的起点:

nodes = collections.deque()
father = []; baby = []  # Containers for source data
# Loop for each starting point
for startNode in Fa.Name.str.split('-', expand=True)[0]:
    nodes.append(startNode)
    while nodes:
        node = nodes.popleft()  # Take node name from the queue
        # Children of this node
        myChildren = children[children.index == node]
        # Process children (ind - father, val - child)
        for ind, val in myChildren.items():
            parts = val.split('-')  # Parts of child name
            # Child "actual" name (if exists)
            val_2 = parts[2] if len(parts) >= 3 else ''
            if val_2 not in father:  # val_2 not "visited" before
                # Add father / child name to containers
                father.append(ind)
                baby.append(val)
                if len(val_2) > 0:
                    nodes.append(val_2)  # Add to the queue, to be processe later
        # Drop rows for "node" from "children" (if any exists)
        if (children.index == node).sum() > 0:
            children.drop(node, inplace=True)
# Convert to a DataFrame
result = pd.DataFrame({'Father': father, 'Baby': baby})
result.Father += '-father'    # Add "-father" to "bare" names

我用小写“f”添加了-father，但我认为这并不多
重要的细节。
对于您的数据样本，结果是:

        Father           Baby
0   A03-father  A03-SA-A02-SA
1   A03-father  A03-SA-A05-SA
2   A03-father  A03-SA-A17-SA
3   A02-father  A02-SA-A04-SA
4   A05-father         A05-NA
5   A17-father  A17-SA-A18-SA
6   A04-father  A04-SA-A09-SA
7   A09-father  A09-SA-A20-SA
8   B02-father  B02-SA-B04-SA
9   B04-father  B04-SA-B06-SA
10  B06-father         B06-NA

以及关于您的数据样本的两点评论:

你用大写的 O(一个字母)而不是 0 写了 B04-SA-B02-SA
(零)。我在我的源数据中更正了它。

行 A02-father A02-SA-A04-SA在您的预期结果中翻了一番。
我认为它应该只发生一次。

关于python - 使用 Panda 在 Python 中根据名称查找值之间的关系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65046975/

文章推荐： r - 在 Rcpp 中快速高效地创建字符 DataFrame

文章推荐： reactjs - useSelector 未定义

java - 如何解析名称=值^^名称=值^^名称=值
我的问题:非常具体。我正在尝试想出解析以下文本的最简单方法: ^^domain=domain_value^^version=version_value^^account_type=account_ty
Python:尝试创建与(或(值，值，值))的等价物
好吧，这就是我的困境: 我正在为 Reddit 子版 block 开发常见问题解答机器人。我在 bool 逻辑方面遇到了麻烦，需要一双更有经验的眼睛(这是我在 Python 中的第一次冒险)。现在，该
excel - 如何使循环同时运行所有 X 和 Y 值，现在它运行所有 Y 值，然后运行所有 X 值
它首先遍历所有 y 值，然后遍历所有 x 值。我需要 X 和 y 同时改变。 For x = 3 To lr + 1 For y = 2 To lr anyl.Cells(x, 1)
excel - SUMIF(条件，值)、SUMPROD(条件，值)和 SUM(条件*值)之间的区别
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
python - 将 Z 值(Z 值，标准分数)转换为 Python 中正态分布的 p 值
如何转换 Z-score来自 Z-distribution (standard normal distribution, Gaussian distribution)到 p-value ?我还没有找到
javascript( bool 值 ^ bool 值)
我正在重写一些 Javascript 代码以在 Excel VBA 中工作。由于在这个网站上搜索，我已经设法翻译了几乎所有的 Javascript 代码!但是，有些代码我无法准确理解它在做什么。这是一
php - 在php中的数组内添加新的键，值(值= 1)
我遇到过包含日期格式的时间戳日期的情况。然后我想构建一个图表，显示“点击”项目的数量“每天”， //array declaration $array1 = array("Date" => 0); $a
scala - Option(值)和Some(值)之间的差异
我是scala的新手! 我的问题是，是否有包含成员的案例类 myItem:Option[String] 当我构造类时，我需要将字符串内容包装在: Option("some string") 要么 So
php - 从表中选择 * 其中列 = 值 ^ column2 = 值
我正在用 PHP 创建一个登录系统。我需要用户使用他或她的用户名或电子邮件或电话号码登录然后使用密码。因为我知道在 Java 中我们会像 email==user^ username == user 这
c++ - WHERE 列 = 值，仅适用于 INTEGER 值
我在 C++ 项目上使用 sqlite，但是当我在具有文本值的列上使用 WHERE 时出现问题我创建了一个 sqlite 数据库: CREATE TABLE User( id INTEGER
c++ - 类类名(值)；和类类名=值；显式构造函数时的区别
当构造函数是显式时，它不用于隐式转换。在给定的代码片段中，构造函数被标记为 explicit。那为什么在 foo obj1(10.25); 情况下它可以工作，而在 foo obj2=10.25; 情况
c# - : if(! 值) 或 if(flag == 值) 哪个更清晰？
我知道这是一个主观问题，所以如果需要关闭它，我深表歉意，但我觉得它经常出现，让我想知道是否普遍偏爱一种形式而不是另一种形式。显然，最好的答案是“重构代码，这样你就不需要测试是否存在错误”，但有时没有
jquery - [属性~=值] 和 [属性*=值] 有什么区别？
这两个 jQuery 选择器有什么区别？以下是来自 w3schools.com 的定义: [attribute~=value] 选择器选择带有特定属性，其值包含特定字符串。 [attribute*=
CSS [属性|=值] 与 [属性*=值] 选择器
为什么我们需要CSS [attribute|=value] Selector根本当 CSS3 [attribute*=value] Selector基本上完成相同的事情，浏览器兼容性几乎相似？是否存在
java - 正则表达式仅验证 0 值。要验证的单个 0 值
我正在解决 regx 问题。我已经有一个像这样的 regx [0-9]*([.][0-9]{2})。这是 amont 格式验证。现在，通过此验证，我想包括不应提供 0 金额。比如 10 是有效的，但
java - 尽管代码删除了 "0"值，但为什么列表中仍保留 "0"值？
我正在研究计算机科学 A 考试的样题，但无法弄清楚为什么以下问题的正确答案是正确的。考虑以下方法。 public static void mystery(List nums) { for (
perl - 基本的 Perl 散列排序键，值，但也键 AND 值
好的，我正在编写一个 Perl 程序，它有一个我收集的值的哈希值(完全在一个完全独立的程序中)并提供给这个 Perl 脚本。这个散列是 (string,string) 的散列。我想通过 3 种方式对
mysql - 根据其他两列选择一列的 MAX 值，其中一列具有 MAX 值
我有一个表数据如下，来自不同的表。仅当第三列具有值“债务”并且第一列(日期)具有最大值时，我才想从第四列中获取最大值。最终值基于 MAX(DATE) 而不是 MAX(PRICE)。所以用简单的语言来说
php - 代码仅更新数据库中的 false 值，但不更新 true 值
我有一个奇怪的情况，只有错误状态保存到数据库中。当“状态”应该为 true 时，我的查询仍然执行 false。我有具有此功能的 Controller public function change_a
mysql SUM(值) 其中 SUM(值) > 2500
我有一个交易表(针对所需列进行了简化): id client_id value 1 1 200 2 2 150 3 1

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 使用 Panda 在 Python 中根据名称查找值之间的关系