python - 如何使用多个条件和模糊逻辑来匹配 pandas 数据框中的条目？-6ren

python - 如何使用多个条件和模糊逻辑来匹配 pandas 数据框中的条目？

转载作者：太空宇宙更新时间：2023-11-03 20:26:18

感谢您的帮助。我相信这是一个常见问题，但我无法找到解决这种特殊形式的解决方案。我是一名新程序员，非常感谢任何帮助。

我有两组有关医疗保健公司的数据。 df1 中的数据很困惑并且包含空值，而 df2 中的数据则完整得多。

我需要匹配df1和df2中的公司，确定是否存在匹配，如果不是直接匹配，则确定匹配的接近程度。两组数据都涉及数万家公司，并且每天都会更改/更新，因此我正在尝试构建可扩展的东西

这是我迄今为止尝试过的可重现的程序:

import pandas as pd
from fuzzywuzzy import process

data1 = [['1001', 'Lutheran Family Hospital', 'Omaha', 'NE'],
         ['1020', 'Lutheran Family Hospital', 'Dallas', 'TX'],
         ['1021', 'Lutheran Regional Family Hospital', 'Des Plaines', 'IL'],
         ['1002', 'Independent Health', 'Fairbanks', 'AK'],
         ['1003', 'Lucky You Community Clinic', '', ''],
         ['1004', 'Belmont General Hospital', 'Belmont', 'CA'],
         ['1005', 'Louisiana Chiro', 'Lafayette', 'LA'],
         ['1006', 'Steven, Even', 'Chicago', 'IL'],
         ['1007', 'Kind Kare 4 Kids', 'New Mexico', 'New Mexico'],
         ['1008', 'Independence Mem', '', ''],
         ['1009', 'Gerald Griffin Health', 'Missoula', 'Montana'],
         ['1010', 'INTERNAL MED', 'CHARLESTON', 'SC'],
         ['1011', 'Belmont Hospital', '', ''],
         ['1012', 'Belmont Gnrl', 'Belmont', 'CA'],
         ['1013', 'St Mary Rehab', '', ''],
         ['1014', 'Saint Mary Med Center', 'Los Angeles', 'California'],
         ['1025', "St. Mary's Of Lourdes Regional Medical Center", 'Lincoln', 'NE'],
         ['1015', 'Bryan Bennington, MD', 'Huntsville', 'AL']]

data2 = [['1', 'Lutheran General Hospital', 'Fort Wayne', 'IN'],
         ['2', 'Lutheran Family Hospital', 'Omaha', 'NE'],
         ['3', 'Independence Memorial Health', 'Fairbanks', 'AK'],
         ['4', 'Lucky-You Community Clinic', 'New York', 'NY'],
         ['5', 'Belmont General Hospital', 'Belmont', 'CA'],
         ['6', 'Lafayette Joints R Us (DBA Louisiana Best Chiropractic)', 'Lafayette', 'LA'],
         ['7', 'Even Steven, MD', 'Chicago', 'IL'],
         ['8', 'Kind Kare 4 Kids, LLC Inc (FKA The Kindest Care)', 'Albequerque', 'NM'],
         ['9', 'The Best Doctor Group', 'Philadelphia', 'PA'],
         ['10', 'Internal Medical Group, PLLC', 'Charleston', 'SC'],
         ['11', "Saint Mary's Holy Name Rehabilitation", 'Lexington', 'KY'],
         ['12', 'St. Mary Regional Medical Center', 'Los Angeles', 'CA'],
         ['13', 'Advanced Outpatient Surgical Center', 'Seattle', 'WA']]

df1 = pd.DataFrame(data1, columns=['ID', 'Org_Name', 'City', 'State'])
df2 = pd.DataFrame(data2, columns=['ID', 'Org_Name', 'City', 'State'])

i = 0
scorethreshold = 80
df1["fuzzy"] = 0
for x in df1.Org_Name:
    noun,score,record = process.extractOne(x,df2.Org_Name)
    if score > scorethreshold:     
        df1.loc[i,'fuzzy'] = noun
    else:
        df1.loc[i,'fuzzy'] = None
    i = i + 1

上面的结果如下:

+----+------+-----------------------------------------------+-------------+------------+---------------------------------------------------------+
|    |  ID  |                   Org_Name                    |    City     |   State    |                          fuzzy                          |
+----+------+-----------------------------------------------+-------------+------------+---------------------------------------------------------+
|  0 | 1001 | Lutheran Family Hospital                      | Omaha       | NE         | Lutheran Family Hospital                                |
|  1 | 1020 | Lutheran Family Hospital                      | Dallas      | TX         | Lutheran Family Hospital                                |
|  2 | 1021 | Lutheran Regional Family Hospital             | Des Plaines | IL         | Lutheran Family Hospital                                |
|  3 | 1002 | Independent Health                            | Fairbanks   | AK         | Independence Memorial Health                            |
|  4 | 1003 | Lucky You Community Clinic                    |             |            | Lucky-You Community Clinic                              |
|  5 | 1004 | Belmont General Hospital                      | Belmont     | CA         | Belmont General Hospital                                |
|  6 | 1005 | Louisiana Chiro                               | Lafayette   | LA         | Lafayette Joints R Us (DBA Louisiana Best Chiropractic) |
|  7 | 1006 | Steven, Even                                  | Chicago     | IL         | Even Steven, MD                                         |
|  8 | 1007 | Kind Kare 4 Kids                              | New Mexico  | New Mexico | Kind Kare 4 Kids, LLC Inc (FKA The Kindest Care)        |
|  9 | 1008 | Independence Mem                              |             |            | Independence Memorial Health                            |
| 10 | 1009 | Gerald Griffin Health                         | Missoula    | Montana    |                                                         |
| 11 | 1010 | INTERNAL MED                                  | CHARLESTON  | SC         | Internal Medical Group, PLLC                            |
| 12 | 1011 | Belmont Hospital                              |             |            | Lutheran General Hospital                               |
| 13 | 1012 | Belmont Gnrl                                  | Belmont     | CA         | Belmont General Hospital                                |
| 14 | 1013 | St Mary Rehab                                 |             |            | Saint Mary's Holy Name Rehabilitation                   |
| 15 | 1014 | Saint Mary Med Center                         | Los Angeles | California | Saint Mary's Holy Name Rehabilitation                   |
| 16 | 1025 | St. Mary's Of Lourdes Regional Medical Center | Lincoln     | NE         | St. Mary Regional Medical Center                        |
| 17 | 1015 | Bryan Bennington, MD                          | Huntsville  | AL         |                                                         |
+----+------+-----------------------------------------------+-------------+------------+---------------------------------------------------------+

但是，我正在尝试创建一些东西，通过它我可以确定不仅公司名称匹配，而且城市和州也匹配，以及所有这些匹配的紧密程度。我正在尝试创建一个更像这样的输出，其中 Fuzzy_ID 指的是匹配条目的索引位置，而 Matched? 指的是 bool 判断:

+---+------+-----------------------------------+-------------+-------+----------+------------+----------+
|   |  ID  |             Org_Name              |    City     | State | Fuzzy_ID |   Score    | Matched? |
+---+------+-----------------------------------+-------------+-------+----------+------------+----------+
| 0 | 1001 | Lutheran Family Hospital          | Omaha       | NE    |        2 | 100        | YES      |
| 1 | 1020 | Lutheran Family Hospital          | Dallas      | TX    |        2 | some_score | NO       |
| 2 | 1021 | Lutheran Regional Family Hospital | Des Plaines | IL    |        2 | some_score | NO       |
| 3 | 1002 | Independent Health                | Fairbanks   | AK    |        3 | some_score | YES      |
| 4 | 1003 | Lucky You Community Clinic        |             |       |        4 | some_score | YES      |
+---+------+-----------------------------------+-------------+-------+----------+------------+----------+

如何实现这一点？存在哪些方法更适合需要完成的任务？非常感谢您提供的任何帮助。

最佳答案

这个任务相当困难，涉及很多步骤，但至少我试图提出一些一般原则。

从整理状态列开始。如果某个地方有州的全名，请将其替换为州代码。

也许您还应该花一些时间来澄清df1中的“无状态”情况，作为清理数据的另一个步骤。

然后，对于 df1 中的每个行，尝试在 df2 中查找最佳匹配行。为此，请使用以下过程:

使用process.extract，在df2中按名称查找最佳匹配池，与当前行，假设limit和score_cutoff的一些值。如果行包含状态，则仅 checkin df2来自该状态的行。将找到的每个匹配项的匹配率保存为 name_ratio。
对于上述池中的每个项目，计算城市列上的WRatio，将其另存为city_ratio。
使用一些聚合公式来计算每场比赛的total_ratio来自name_ratio和city_ratio。我也不确定这个公式应该如何。
以最大total_ratio进行匹配，但如果这个(最佳)比率低于某个total_ratio_cutoff，假设当前行没有匹配项。

当然，您仍然需要尝试特定的值参数并查看其值的变化如何影响最终结果。

关于python - 如何使用多个条件和模糊逻辑来匹配 pandas 数据框中的条目？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57793621/

文章推荐： javascript - Jquery 数据表在标题和正文部分之间有一些差距

文章推荐： matlab - 在 MatLab 中过滤噪声

文章推荐： html - 单击需要的大小打开一个选择框，即没有滚动条

文章推荐： Matlab - 获取通过特定总和限制的向量元素的索引

JavaScript 模糊
我正在学习 Javascript，我正在尝试创建一个简单的下拉菜单。我想要的功能的示例可以在 Google 主页的顶部菜单中看到，其中包含“更多”和“设置”下拉菜单。我有一个使用 onclick()
Tinymce 模糊/焦点事件
我尝试捕捉 tinyMce 编辑器的模糊和焦点事件。我为此找到了以下方法。 ed.onInit.add(function(ed) { tiny
jQuery 模糊() 不起作用？
这里完全被难住了。尝试一些很简单的东西，但它不起作用: $("input.input1, textarea.input1").focus(function(){ $(this).addClas
jQuery 模糊() 和点击()
我有以下 jQuery 函数: 提交表单 $(".content").delegate('.entryButton','click', function() {var form = $(this).c
jQuery 切换焦点/模糊
如何使用 jQuery 在焦点/模糊上切换元素的 CSS？ $('.answerSpace').bind('blur', function(){ $('.normProf').toggleClass(
iPhone:模糊 UIImage
在我的 iPhone 应用程序中，我有一个黑白 UIImage。我需要模糊该图像(高斯模糊即可)。 iPhone 显然知道如何模糊图像，如 it does that when it draws sha
javascript - 如何向图像添加滤镜(模糊)
这个问题已经有答案了: Blurring an image via CSS? (6 个回答) 已关闭 7 年前。我有一个场景。我想随着循环的进行模糊我的图像。我怎样才能做到这一点？这是我的代码。
java - 模糊 'StringIndexOutOfBoundsException"
这个错误是在子字符串方法上抛出的，我发现很多线程都在处理这个问题，但我遇到的问题似乎有所不同。我知道如果您的字符串短于子字符串(开始，结束)大小，它会抛出此错误，但在任何内容传递到方法调用之前都会抛出
Qt运动(线性)模糊
是否有简单的解决方案可以在 Qt 中为图像添加运动模糊？还没有找到任何关于模糊的好教程。我需要一些非常简单的东西，我可以理解，如果我可以改变模糊角度，那就太好了。最佳答案 Qt 没有运动模糊过滤器。
jQuery - 模糊，但如果单击按钮则不会
我的搜索框在正常状态下很小。焦点对准时，它会展开，并显示一个提交按钮。这样做是为了节省空间。现在，在模糊时，搜索框再次缩小，提交按钮消失。问题是，通过使提交按钮成为“竞赛”以在正确的位置单击它，对提
c# - RenderTargetBitmap 模糊
您好，我正在使用 PngBitmapEncoder 从 Canvas 在内存中创建图像。 public void CaptureGraphic() { Canvas canvas = new
javascript - 模糊();单击鼠标中键
我已经搜索过谷歌、这个和其他论坛，但无济于事……太棒了，有没有可能有像 onMiddleClick="blur();"这样的东西？在单击鼠标中键时隐藏链接的焦点边框？最佳答案 $('a').clic
Android 纹理看起来不清楚/模糊
我无法在我的应用程序中正确渲染我的纹理。我使用的艺术品是精确的，并且已经缩放且尺寸合适，但是当我在手机上渲染它时，我的纹理突然不如原始艺术品清晰/精确，我不明白为什么。有人遇到过这个问题吗？最佳答
android - 使父布局背景变暗/模糊
这里有与上述主题相同的问题但没有得到答复我这里有布局我需要在底部布局中使用与顶部布局相同的图像，但使用模糊样式设置 alpha 没有帮助 - TextView 也会影响如何虚化down布局的背
java - 如何检测页面中是否包含句子(模糊)？
我已经搜索了一段时间，但到目前为止没有找到适合我需要的东西。 ( This was helpful, but not convincing ) 从两个不同的来源，我得到两个不同的字符串。我想检查较短的
Javascript 模糊，密码输入不起作用
我有这样的代码: var passwordTextBox = angular.element("#password"); passwordTextBox.blur(function()
JQuery 隐藏可折叠菜单点击其他地方 - 模糊 -
设置此 JQuery 函数无法正常工作。有时，如果我单击元素，什么也没有发生，并且它会触发隐藏可折叠菜单的功能，如果单击文档上的任意位置，则不会重定向到正确的 href。有什么更好的方法吗？ HTML
python - 裁剪功能后字母模糊/模糊
尝试通过将坐标列表保存到数组来在多个位置裁剪我的图像后，裁剪区域中的字母变得非常模糊，我无法弄清楚原因。原图看起来像裁剪后的图像看起来像题中代码如下: import numpy as np im
android - 如何仅使屏幕的一部分变暗/模糊？
我知道我们可以调暗/模糊屏幕，如 this post 所示. 我应该怎么做才能使它的一部分变暗/模糊，使单个(或多个) View 没有任何效果，从而使整个屏幕具有突出显示 View 的效果？此外，即
php(模糊)搜索匹配
如果有人曾经向 digg 提交过故事，它会检查该故事是否已经提交，我假设是通过模糊搜索。我想实现类似的东西，想知道他们是否使用开源的 php 类？ Soundex 不这样做，句子/字符串的长度可达

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何使用多个条件和模糊逻辑来匹配 pandas 数据框中的条目？