python - 根据属性将两个人匹配在一起

转载作者：塔克拉玛干更新时间：2023-11-03 03:05:24

我有一个包含不同人的数据框。每行包含表征个人的属性。基本上我需要像过滤器或匹配算法这样的东西来加权特定属性。数据框如下所示:

df= pd.DataFrame({
'sex' : [m,f,m,f,m,f],
'food' : [0,0,1,3,4,3],
 'age': [young, young, young, old, young, young]
'kitchen': [0,1,2,0,1,2],
})

数据框 df 如下所示:

    sex food  age     kitchen
0   m    0    young    0
1   f    0    young    1
2   m    1    young    2
3   f    3    old      0
4   m    4    young    1
5   f    3    young    2

我正在寻找一种算法，该算法将数据帧中的所有人分组成对。我的计划是根据以下属性找到成对的两个人:

一个人必须有厨房(kitchen=1)
至少一个人拥有厨房是很重要的。
kitchen=0 --> 这个人没有厨房
kitchen=1 --> person has a kitchen
kitchen=2 --> 人有厨房但只有在紧急情况下(没有其他选择时)
相同的食物偏好
food=0 --> 肉食者
food=1 --> 无所谓
食物=2 --> 素食主义者
food=3 --> 素食
肉食者 (food=0) 可以与不关心食物偏好的人 (food=1) 匹配，但不能与素食主义者或素食者匹配。素食主义者 (food=2) 最适合素食主义者 (food=3)，如有必要，可以搭配 food=1。等等……
年龄相仿
有九个年龄段:10-18； 18-22； 22-26； 26-29、29-34； 34-40； 40-45； 45-55 和 55-75。同一年龄段的人非常匹配。年轻的年龄组与年长的年龄组并不匹配。相似的年龄组匹配得更好一些。没有明确定义的条件。 “老”和“年轻”的意思是相对的。

性别无关紧要。有许多可能的配对组合。因为我的实际数据框很长(3000 行)，所以我需要找到一个自动化的解决方案。在数据框或字典或其他东西中为我提供最佳配对的解决方案。

我真的不知道如何解决这个问题。我一直在 Stack Overflow 上寻找类似的问题，但没有找到合适的。主要是太理论上了。我也找不到真正适合我的问题的东西。

我在这里的预期输出是，例如字典(不确定如何)或以每两行可以看作一对的方式排序的数据框。

背景:目标是结对进行一些空闲时间事件。因此我认为，相同或相似年龄段的人有相同的兴趣，因此我想在我的代码中考虑这个事实。

最佳答案

我通过将 'name' 作为识别此人的 key 来完成添加。

方法

方法是我对值进行评分，这些值进一步用于根据给定条件过滤最终对。

厨房评分

我们使用的厨房分数:

没有厨房的人:0
拥有厨房的人:1
人有厨房但只在紧急情况下:0.5

厨房的if条件逻辑

我们检查[记录 1 的厨房得分] + [记录 2 的厨房得分] 是否大于零。由于会出现以下情况:

两位成员都没有厨房(总和将为 0)[排除条件 > 0]
两位成员都有厨房(总和为 2)
一个成员有厨房，另一个没有厨房(总和为 1)
两者都有应急厨房(总和为 1)
一个有应急厨房，另一个有厨房(总和为 1.5)
一名成员有应急厨房，另一名成员没有厨房(总和为 0.5)

食物评分

我们使用的食物分数:

食物 = 0 --> 肉食者:-1
food = 1 --> 无所谓:0
食物 = 2 --> 素食主义者:1
食物 = 3 --> 素食者:1

食物的if条件逻辑

我们检查 *[记录 1 的食物得分] * [记录 2 的食物得分]* 是否大于或等于到零。由于会出现以下情况:

两个成员都是肉食者:-1 x -1 = 1 [已包含]
其中一名成员是肉食者和其他纯素食者或素食者:-1 x 1 = -1 [排除]
成员之一是肉食者，其他成员无关紧要:-1 x 0 = 0 [已包含]
其中一位成员是素食主义者或素食主义者，其他无关紧要:1 x 0 = 0 [已包含]
两位成员都是纯素食者或素食者:1 x 1 = 1 [已包含]

年龄组评分

对于评分年龄组，我们为这些组分配了一些值:

10-18 : 1
18-22 : 2
22-26 : 3
26-29 : 4
29-34 : 5
34-40 : 6
40-45 : 7
45-55 : 8
55-75 : 9

年龄分数计算

为了计算年龄得分，使用了以下公式:age_score = round((1 - (abs(人 1 的年龄组值 - 人 2 的年龄组值)/10)), 2)

在上面的公式中我们做了如下计算:

首先我们计算了两个人的年龄组值之间的差异的绝对值。
然后我们将它除以 10 以对其进行归一化。
此外，我们从 1 中减去该值以反转距离，因此在这一步之后，我们对相似或更接近年龄组的人具有更高的值，而对于不同或更远年龄组的人具有更低的值。

案例如下:

18-22 和 18-22: round(1 - (abs(2 - 2)/10), 2) = 1.0
45-55 和 45-55 : round(1 - (abs(8 - 8)/10), 2) = 1.0
18-22 和 45-55: round(1 - (abs(2 - 8)/10), 2) = 0.4
10-18 和 55-75: round(1 - (abs(1 - 9)/10), 2) = 0.2

最终分数计算

为了计算最终分数，我们使用了:

最终得分 = 食物得分 + 厨房得分 + 年龄得分

然后我们对最终得分数据进行排序以获得最佳配对。

解决方案代码

import pandas as pd
import numpy as np

# Creating the DataFrame, here I have added the attribute 'name' for identifying the record.
df = pd.DataFrame({
    'name' : ['jacob', 'mary', 'rick', 'emily', 'sabastein', 'anna', 
              'christina', 'allen', 'jolly', 'rock', 'smith', 'waterman', 
              'mimi', 'katie', 'john', 'rose', 'leonardo', 'cinthy', 'jim', 
              'paul'],
    'sex' : ['m', 'f', 'm', 'f', 'm', 'f', 'f', 'm', 'f', 'm', 'm', 'm', 'f', 
             'f', 'm', 'f', 'm', 'f', 'm', 'm'],
    'food' : [0, 0, 1, 3, 2, 3, 1, 0, 0, 3, 3, 2, 1, 2, 1, 0, 1, 0, 3, 1],
    'age' : ['10-18', '22-26', '29-34', '40-45', '18-22', '34-40', '55-75',
             '45-55', '26-29', '26-29', '18-22', '55-75', '22-26', '45-55', 
             '10-18', '22-26', '40-45', '45-55', '10-18', '29-34'],
    'kitchen' : [0, 1, 2, 0, 1, 2, 2, 1, 0, 0, 1, 0, 1, 1, 1, 0, 2, 0, 2, 1],
})

# Adding a normalized field 'k_scr' for kitchen
df['k_scr'] = np.where((df['kitchen'] == 2), 0.5, df['kitchen'])

# Adding a normalized field 'f_scr' for food
df['f_scr'] = np.where((df['food'] == 1), 0, df['food'])
df['f_scr'] = np.where((df['food'] == 0), -1, df['f_scr'])
df['f_scr'] = np.where((df['food'] == 2), 1, df['f_scr'])
df['f_scr'] = np.where((df['food'] == 3), 1, df['f_scr'])

# Adding a normalized field 'a_scr' for age
df['a_scr'] = np.where((df['age'] == '10-18'), 1, df['age'])
df['a_scr'] = np.where((df['age'] == '18-22'), 2, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '22-26'), 3, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '26-29'), 4, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '29-34'), 5, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '34-40'), 6, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '40-45'), 7, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '45-55'), 8, df['a_scr'])
df['a_scr'] = np.where((df['age'] == '55-75'), 9, df['a_scr'])

# Printing DataFrame after adding normalized score values
print(df)

commonarr = [] # Empty array for our output
dfarr = np.array(df) # Converting DataFrame to Numpy Array
for i in range(len(dfarr) - 1): # Iterating the Array row
    for j in range(i + 1, len(dfarr)): # Iterating the Array row + 1
        # Check for Food Condition to include relevant records
        if dfarr[i][6] * dfarr[j][6] >= 0: 
            # Check for Kitchen Condition to include relevant records
            if dfarr[i][5] + dfarr[j][5] > 0:
                row = []
                # Appending the names
                row.append(dfarr[i][0])
                row.append(dfarr[j][0])
                # Appending the final score
                row.append((dfarr[i][6] * dfarr[j][6]) +
                           (dfarr[i][5] + dfarr[j][5]) +
                           (round((1 - (abs(dfarr[i][7] -
                                            dfarr[j][7]) / 10)), 2)))

                # Appending the row to the Final Array
                commonarr.append(row)

# Converting Array to DataFrame
ndf = pd.DataFrame(commonarr)

# Sorting the DataFrame on Final Score
ndf = ndf.sort_values(by=[2], ascending=False)
print(ndf)

带分数的输入/中间数据帧

         name sex  food    age  kitchen  k_scr  f_scr a_scr
0       jacob   m     0  10-18        0    0.0     -1     1
1        mary   f     0  22-26        1    1.0     -1     3
2        rick   m     1  29-34        2    0.5      0     5
3       emily   f     3  40-45        0    0.0      1     7
4   sabastein   m     2  18-22        1    1.0      1     2
5        anna   f     3  34-40        2    0.5      1     6
6   christina   f     1  55-75        2    0.5      0     9
7       allen   m     0  45-55        1    1.0     -1     8
8       jolly   f     0  26-29        0    0.0     -1     4
9        rock   m     3  26-29        0    0.0      1     4
10      smith   m     3  18-22        1    1.0      1     2
11   waterman   m     2  55-75        0    0.0      1     9
12       mimi   f     1  22-26        1    1.0      0     3
13      katie   f     2  45-55        1    1.0      1     8
14       john   m     1  10-18        1    1.0      0     1
15       rose   f     0  22-26        0    0.0     -1     3
16   leonardo   m     1  40-45        2    0.5      0     7
17     cinthy   f     0  45-55        0    0.0     -1     8
18        jim   m     3  10-18        2    0.5      1     1
19       paul   m     1  29-34        1    1.0      0     5

输出

             0          1    2
48   sabastein      smith  4.0
10        mary      allen  3.5
51   sabastein      katie  3.4
102      smith        jim  3.4
54   sabastein        jim  3.4
99       smith      katie  3.4
61        anna      katie  3.3
45   sabastein       anna  3.1
58        anna      smith  3.1
14        mary       rose  3.0
12        mary       mimi  3.0
84       allen     cinthy  3.0
98       smith       mimi  2.9
105   waterman      katie  2.9
11        mary      jolly  2.9
50   sabastein       mimi  2.9
40       emily      katie  2.9
52   sabastein       john  2.9
100      smith       john  2.9
90        rock      smith  2.8
47   sabastein       rock  2.8
0        jacob       mary  2.8
17        mary       paul  2.8
13        mary       john  2.8
119      katie        jim  2.8
116       mimi       paul  2.8
111       mimi       john  2.8
103      smith       paul  2.7
85       allen       paul  2.7
120      katie       paul  2.7
..         ...        ...  ...

这个解决方案还有进一步的优化空间。

关于python - 根据属性将两个人匹配在一起，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53996421/

文章推荐： c# - 编程挑战 : Competition for the best cat is coming

文章推荐： java - 如果一个类是最终的，我如何判断使用反射

文章推荐： java - Spring 4 和 Rest WS 集成

文章推荐： algorithm - 这个伪代码的复杂度是多少

javascript - 对焦或模糊时的射击功能(一起)
我想要的是能够在输入获得焦点或失去焦点时执行某些操作(两个事件)。我尝试了以下方法，但这按事件单独工作(单独编码时):仅在焦点上，或仅在失去焦点时。另外，我希望它尽可能跨平台(包括触摸设备)，这是
JavaFX TableView 使用分页过滤(一起)
我分别研究了TableView的Filtering和Pagination。过滤: this帖子帮助我满足了我的需要分页: this , this帖子也帮助了我我想像这样将它们组合在一起: 详情-
TDD 和 UML 一起
我是 TDD 方法的新手，所以我想知道是否有人经历过这种机智可以启发我一点。我想获得一些关于如何一起使用 UML 和 TDD 方法的线索。我已经习惯了:用 UML 设计 --> 生成骨架类(然后保持
Docker 入口点和 cmd 一起
我尝试使用入口点和 cmd 设置 Docker。 FROM debian:stretch RUN apt-get update && \ apt install gnupg ca-certificat
Java 泛型与类和接口(interface) - 一起
我想要一个 Class 对象，但我想强制它所代表的任何类扩展类 A 并实现接口(interface) B。我能做到: Class 或者: Class 但我不能两者兼得。有办法做到这一点吗？最佳答案
javascript - WebStorm + RubyMine 一起(？)
我是 Rubymine 的长期用户。 Rubymine 非常适合基于 html 的 Rails 应用程序，但我现在正在做更多的 SPA 客户端工作(例如 javascript/react)。我发现我真
jquery - Prototype 和 jQuery 一起？
我注意到我使用的某个脚本依赖于原型(prototype)。 (Lightbox 2) 它会与 jQuery 在同一页面上一起工作吗？有没有办法确保它们不冲突？最佳答案可以，但你需要采取 speci
Jquery dataTables 和 tablesorter 一起
我需要对表中显示的数据进行分页并通过 ajax 调用获取它 - 这是我通过使用具有以下配置的 dataTables 插件来完成的 - bServerSide : true; sAjaxSource :
c - 归档和 gtk 一起 - 可能吗？
我是 gtk 新手，所以想知道在 C 语言中归档和 gtk 是否可以一起使用？例如，我可以从 .txt 文件中读取，然后在相同的代码中使用 gtk 在标签或其他内容中显示它吗？如果是，怎么办？谢谢!
java - Bck2Brwsr 与 JavaFX 一起？
有没有人设法得到Bck2Brwsr最近与 Java 8/JavaFX 8 一起工作？有没有兼容的机会？我找不到太多关于它的信息，也没有一个好的起点。使用给定的 Maven archetype我遇到了几
python - openid 和 oauth 一起？
在我的应用程序中，用户通过 openid(与 stackoverflow 相同)登录/注销。我想通过 oauth 向第三方应用程序开放我的应用程序。如何创建我的 openid-consumer 应
java - 与 Spring 一起 hibernate
我在启动和运行 Hibernate 和 Spring 时遇到一些问题。我有一个网络服务器项目，它使用了其他几个具有持久实体的项目。我遇到的问题是，对于存储在 WEB-INF/libs 内的另一个 ja
java - @ControllerAdvice 异常处理与@ResponseStatus 一起
我有 @ControllerAdvice 类，它处理一组异常。我们还有一些其他异常，这些异常用 @ResponseStatus 注释进行注释。为了结合这两种方法，我们使用博客文章中描述的技术:http
android - Progressbar 与 asyncTask 一起
我想在屏幕上使用进度条而不是 progressDialog。我在我的 XML View 文件中插入了一个进度条，我想让它在加载时显示并在不加载时禁用它。所以我使用的是可见的，但它发生了，所以其余的
mysql - CONCAT 与 IF ELSE 一起？
CREATE TABLE `users` ( `id` int(11) AUTO_INCREMENT, `academicdegree` varchar(255),
sql - MySQL - Where IN 与 GROUP_CONCAT 一起
IN() 中使用的查询返回:1, 2。然而，整个查询返回 0 行，这是不可能的，因为它们存在。我在这里做错了什么？ SELECT DISTINCT li.auto_id FROM links
javascript - Jade 和 jQuery 一起
亲们，我如何在使用 Jade 生成的表单上实现 jQuery 样式？我想做的是美化表单并使它们可点击。我在 UI 方面很糟糕。期间。我如何在表单上实现这个可选择的方法？ http://jquer
php - Yii 和 Knockout 一起？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - auto 关键字和 smartpointers 一起？
我可以: auto o1 = new Content; 但不能: std::shared_ptr o1(new Content); std::unique_ptr o1(new Content); 我
java - Firebase 与 sqlite 一起
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城