- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含 10 个解析地址的数据帧 df_sample
,并将其与另一个包含数十万个解析地址记录 df
的数据帧进行比较。 df_sample
和 df
共享完全相同的结构:
zip_code city state street_number street_name unit_number country
12345 FAKEVILLE FLORIDA 123 FAKE ST NaN US
我想要做的是将df_sample
中的单行与df
中的每一行进行匹配,从state
开始并仅获取行其中 fuzzy.ratio(df['state'], df_sample['state']) > 0.9
到新的数据帧中。一旦根据这些匹配创建了这个新的、更小的数据框,我将继续对城市、邮政编码等执行此操作。例如:
df_match = df[fuzzy.ratio(df_sample['state'], df['state']) > 0.9]
除非那不起作用。
我的目标是每次使用更难的搜索条件时缩小匹配数,并最终通过逐列缩小匹配数来获得尽可能少匹配的数据框。但我不确定如何对任何单个记录执行此操作。
最佳答案
创建数据框
import pandas as pd
from fuzzywuzzy import fuzz
df = pd.DataFrame({'key': [1, 1, 1, 1, 1],
'zip': [1, 2, 3, 4, 5],
'state': ['Florida', 'Nevada', 'Texas', 'Florida', 'Texas']})
df_sample = pd.DataFrame({'key': [1, 1, 1, 1, 1],
'zip': [6, 7, 8, 9, 10],
'state': ['florida', 'Flor', 'NY', 'Florida', 'Tx']})
merged_df = df_sample.merge(df, on='key')
merged_df['fuzzy_ratio'] = merged_df.apply(lambda row: fuzz.ratio(row['state_x'], row['state_y']), axis=1)
merged_df
你得到每对的模糊比率
key zip_x state_x zip_y state_y fuzzy_ratio
0 1 6 florida 1 Florida 86
1 1 6 florida 2 Nevada 31
2 1 6 florida 3 Texas 17
3 1 6 florida 4 Florida 86
4 1 6 florida 5 Texas 17
5 1 7 Flor 1 Florida 73
6 1 7 Flor 2 Nevada 0
7 1 7 Flor 3 Texas 0
8 1 7 Flor 4 Florida 73
9 1 7 Flor 5 Texas 0
10 1 8 NY 1 Florida 0
11 1 8 NY 2 Nevada 25
12 1 8 NY 3 Texas 0
13 1 8 NY 4 Florida 0
14 1 8 NY 5 Texas 0
15 1 9 Florida 1 Florida 100
16 1 9 Florida 2 Nevada 31
17 1 9 Florida 3 Texas 17
18 1 9 Florida 4 Florida 100
19 1 9 Florida 5 Texas 17
20 1 10 Tx 1 Florida 0
21 1 10 Tx 2 Nevada 0
22 1 10 Tx 3 Texas 57
23 1 10 Tx 4 Florida 0
24 1 10 Tx 5 Texas 57
然后过滤掉你不想要的
mask = (merged_df['fuzzy_ratio']>80)
merged_df[mask]
结果:
key zip_x state_x zip_y state_y fuzzy_ratio
0 1 6 florida 1 Florida 86
3 1 6 florida 4 Florida 86
15 1 9 Florida 1 Florida 100
18 1 9 Florida 4 Florida 100
关于python - 如何使用 fuzzywuzzy 比率将一个数据框中的值与另一个数据框中的列进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59312265/
我不太确定如何制作它,因此当在屏幕上绘制矩形时,它有可能是金色的。这是我的游戏随机生成随机矩形的当前代码: public void drawRectangle() { rects.clear(
我知道这个问题可能是简单的几何问题,但我正在为一个地理区域使用特定的 shapefile 并寻找特定的 gis 解决方案(希望是代码)。 本质上,我想找到覆盖每个独立地理边界的黑色区域。覆盖红色区域、
我有一个 wordpress 网站,我有 5 个低文本 HTML 比率的页面,这是用于类别页面、作者页面和主页。我删除了所有不必要的插件以减少代码,它去掉了一个(我之前有 6 个)。我知道删除代码行之
这个问题已经有答案了: Division of integers in Java [duplicate] (7 个回答) 已关闭 9 年前。 我的代码: public class Test { pub
我希望在缩小时保持视频嵌入 (iframe) 的尺寸不变。 此时会出现两条黑线,并且随着您将其缩小而变大。 示例:http://jsfiddle.net/k5nbmqau/ 最简单的方法是什么?我想在
我正在尝试创建一个“幻灯片”div,它以恒定的纵横比在屏幕中间居中。 结合这个trick用于居中和this one对于比率,我想出了这个: HTML Percentage
我正在寻找一个提供统计数据/图表的网站,该网站提供 Android 智能手机和平板电脑上最流行的分辨率/屏幕比例。需要它来设计 UI 并计划如何扩展。如果有人共享数据会很酷。 最佳答案 这是您要找的吗
在我的应用中,我允许用户以纵向模式录制视频。我在应用程序中使用它,这很好。但是,我正在实现一项功能以在 Instagram 上分享视频,其中视频必须是方形的。 将视频裁剪成正方形,比方说中间部分,是一
我需要从两台服务器创建“可靠性”报告 - 服务器 A 和服务器 B。 两者都跟踪其正常运行时间 - 或者更确切地说,在它们不可用的任何情况下。这些记录存储在 SQL Server 数据库表中 Even
您好,我想更改我的/etc/my.cnf 文件(mysql 的配置文件)。 以下值应该是多少才能使我的查询获得更好的性能。 query_cache_type = 1 query_cache_limit
目前我有一个布局,可以将一些缩略图拉入一个 grid - 每个缩略图都由一种样式定义,该样式使它们保持固定比例(大约 16:9),该比例由以下定义像素尺寸 (389px x 230px),但它们在高分
我有一个 wxPython 应用程序,带有一个框架和一个面板。该面板上有许多静态框,每个静态框都有按钮和文本框。 我刚刚开始阅读有关 sizer 的内容,但它们似乎可能超出了我的需要,或者它们可能正是
假设我正在构建一个基本的搜索引擎。我有一个字符串列表作为搜索结果,我想对搜索结果列表进行排序,最匹配的结果排在最前面。 我当前的代码如下所示(以命名参数为例) import difflib def o
我正在为一组物种生成生态位模型,我想使用 AUC 作为生态位质量的指标。开发 Maxent 的 Steven Phillips 在他的 Maxent 手册中提供了用于计算 R 中 AUC 的代码。但是
我在 LaunchScreen 中有一个 UIView。 我已将以下约束添加到此 UIView。 我希望我的红色 View 始终占屏幕的 35%。 我计算了 RedView 的高度: 我的 ViewC
我有一个包含列的数据框:Year 和 Min Delay。示例行如下: 2014 0 2014 2 2014 0 2014 4 2015 4 2015 4 2015
我需要 CSS/响应式代码方面的帮助。随着我的窗口大小减小,我需要所有元素以相同的比例减小。对此有疑问。箭头和公鸡不会随着视口(viewport)减小而减小。 公鸡脚的影子应该稍微被箭遮住。箭头主体(
我想创建 roofline 模型,但我遇到了每字节比率算法失败的问题。你能解释一下如何计算吗?该算法使用 5 点模板进行计算。 这是算法 for(int i=1; i
我有一个数据框,其中单元格用 float 填充,列名采用日期时间格式,格式为年+季度 - 例如“1995Q2”。我想划分其中两个列的值并将结果存储在一个新列中。我这样做了: df['ratio'] =
我有一个 8GB RAM 的生产服务器。我希望在服务器上托管 elastic、logstash 和 kibana。使用 docker compose。 每个容器的推荐 java 大小内存大小是多少。我
我是一名优秀的程序员,十分优秀!