python - 如何找到每个客户的相似地址数量？-6ren

python - 如何找到每个客户的相似地址数量？

转载作者：行者123 更新时间：2023-12-01 09:18:40

25

4

我有一个包含两列的数据集:客户id和地址:

id      addresses
1111    asturias 32, benito juarez, CDMX
1111    JOSE MARIA VELASCO, CDMX
1111    asturias 32 DEPT 401, INSURGENTES, CDMX
1111    deportes
1111    asturias 32, benito juarez, MIXCOAC, CDMX
1111    cd. de los deportes
1111    deportes, wisconsin
2222    TORRE REFORMA LATINO, CDMX
2222    PERISUR 2890
2222    WE WORK, CDMX
2222    WEWORK, TORRE REFORMA LATINO, CDMX
2222    PERISUR: 2690, COYOCAN
2222    TORRE REFORMA LATINO

我有兴趣找到每个客户的不同地址数量。例如，对于客户 id 1111，有 3 个不同的地址:

[阿斯图里亚斯 32，贝尼托胡亚雷斯，CDMX，阿斯图里亚斯第 32 部队 401、叛乱分子、CDMX、阿斯图里亚斯 32、贝尼托·胡亚雷斯、MIXCOAC、CDMX]
[JOSE MARIA VELASCO，CDMX]
[驱逐出境，光盘。德洛斯驱逐者，威斯康星州驱逐]

我用 python 编写了一段代码，它只能显示两个连续行之间的相似性:行 i 和行 i+1 (得分 0 表示完全不相似，1 表示完全相似)。

id      addresses                                  score
1111    asturias 32, benito juarez, CDMX             0
1111    JOSE MARIA VELASCO, CDMX                     0
1111    asturias 32 DEPT 401, INSURGENTES, CDMX      0
1111    deportes                                     0
1111    asturias 32, benito juarez, MIXCOAC, CDMX    0
1111    cd. de los deportes                          0.21
1111    deportes, wisconsin                          0
2222    TORRE REFORMA LATINO, CDMX                   0
2222    PERISUR 2890                                 0
2222    WE WORK, CDMX                                0.69
2222    WEWORK, TORRE REFORMA LATINO, CDMX           0
2222    PERISUR: 2690, COYOCAN                       0
2222    TORRE REFORMA LATINO

如果得分 > 0.20，我将认为它们是两个不同的地址。以下是我的代码:

import nltk
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
import unicodedata
import unidecode
import string
from sklearn.feature_extraction.text import TfidfVectorizer

data=pd.read_csv('address.csv')
nltk.download('punkt')
stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

def stem_tokens(tokens):
    return [stemmer.stem(item) for item in tokens]

'''remove punctuation, lowercase, stem'''
def normalize(text):
    return stem_tokens(
        nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))

vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')

def cosine_sim(text1, text2):
    tfidf = vectorizer.fit_transform([text1, text2])
    return ((tfidf * tfidf.T).A)[0, 1]

cnt = np.array(np.arange(0, 5183))
indx = []

for i in cnt:
    print cosine_sim(data['address'][i], data['address'][i + 1])

但是上面的代码无法比较特定客户id的每个可能的行。我想要如下输出:

id     unique address
1111    3
2222    3
3333    2

最佳答案

您可以在 itertools 中使用组合来实现此目的。请参阅下面的完整代码。

请注意，我使用分号分隔的 CSV 文件

此外，如果需要，您还可以使用 SPACY 中的similarity 函数来查找两个短语之间的相似性。这里我使用了您提供的相同功能。

import nltk
import numpy as np
import pandas as pd
import itertools
import string
from sklearn.feature_extraction.text import TfidfVectorizer


def stem_tokens(tokens):
    return [stemmer.stem(item) for item in tokens]

'''remove punctuation, lowercase, stem'''
def normalize(text):
    return stem_tokens(
        nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))

def cosine_sim(text1, text2):
    tfidf = vectorizer.fit_transform([text1, text2])
    return ((tfidf * tfidf.T).A)[0, 1]

def group_addresses(addresses):
    '''merge the lists if they have an element in common'''
    out = []
    while len(addresses)>0:
        # first, *rest = addresses  # for python 3
        first, rest = addresses[0], addresses[1:]  # for python2
        first = set(first)
        lf = -1
        while len(first)>lf:
            lf = len(first)

            rest2 = []
            for r in rest:
                if len(first.intersection(set(r)))>0:
                    first |= set(r)
                else:
                    rest2.append(r)     
            rest = rest2

        out.append(first)
        addresses = rest
    return out


df=pd.read_csv("address.csv", sep=";")
stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')

sim_df = pd.DataFrame(columns=['id', 'unique address'])

for customer in set(df['id']):
    customer_addresses = (df.loc[df['id'] == customer]['addresses'])    #Get the addresses of each customer
    all_entries = [[adr] for adr in customer_addresses]    #Make list of lists
    sim_pairs = [list((text1, text2)) for text1, text2 in itertools.combinations(customer_addresses, 2) if cosine_sim(text1, text2) >0.2 ]      # Find all pairs whose similiarty is greater than 0.2
    all_entries.extend(sim_pairs)
    sim_pairs = group_addresses(all_entries)
    print(customer , len(sim_pairs))

输出看起来像

2222 2
1111 3

形成的团体是

2222
['WE WORK, CDMX', 'WEWORK, TORRE REFORMA LATINO, CDMX', 'TORRE REFORMA LATINO, CDMX', 'TORRE REFORMA LATINO']
['PERISUR 2890', 'PERISUR: 2690, COYOCAN']

1111
['asturias 32 DEPT 401, INSURGENTES, CDMX', 'asturias 32, benito juarez, MIXCOAC, CDMX', 'asturias 32, benito juarez, CDMX']
['JOSE MARIA VELASCO, CDMX']
['deportes, wisconsin', 'cd. de los deportes', 'deportes']

关于python - 如何找到每个客户的相似地址数量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50995179/

25

4

0

文章推荐： python - 如何将 Mobilenium python 模块与 selenium 一起使用

文章推荐： python - 将静态方法与享元装饰器一起使用时出错

文章推荐： python - Scraper 不断抓取相同的链接

javascript - 获取父级中的 div 数量，然后获取特定类的 div 数量
我有几个带有视频和图像的 Bootstrap slider 。在 slider 之外，我想要一个可以转到包含视频的幻灯片的按钮。包含视频的幻灯片的数量因 slider 而异。我想做的是获取幻灯片的数量
SQL 组按自定义类别(数量)
我在编写一个查询时遇到了一些问题。我有一个由文件及其大小(以字节为单位)组成的表。它看起来像这样: FileUrl | FileSize ------------------ xyz.docx |
javascript - 获取iframe的层级/数量
我有一个带 iframe 的网站和一个带另一个 iframe 的网站，所以它是一个 iframe 内嵌另一个 iframe(都在不同的域上)。那么有没有办法从父div或父主div的url(parent
javascript - 表达式类型(数量)
以下表达式在 JavaScript 中给出了特殊的结果。 typeof (5 + "7") // Gives string typeof (5 - "7") // Gives number 如
php - 获取上周的数据(数量)
我有一个名为“交易”的表，每当有人在我的网站上进行购买时，我都会在其中输入用户 ID、购买类型和金额。我想向每个用户显示过去 7 天的这些统计信息。目前，我有这个: $data = array()
以周为单位汇总的每天的 PostgreSQL 数量
我一整天都在努力寻找解决这一挑战的办法。我有一张 table : id | amount | type | date |
hadoop - reducer 数量
我正在尝试在 10 个数据节点的集群中测试 Map reduce 程序的性能。在此过程中，我使用了 5 个 Reducers，然后是 10 个等等。我在想增加 reducer 的数量也会使工作完成得
jquery - 监控类型=数量？
我正在使用 html5 输入 type="number"。我想监视此输入的变化，但是: 因为在支持它的浏览器中它有旋转控件我不能只监视 .keyup, 因为我不想等待它失去焦点，所以我不能只监视
MySQL - 查找和计算重复项(数量)
我的购物车表格有问题。我创建了一个如下所示的表格: SQL Fiddle 我的问题是我希望能够选择产品 ID，并计算该产品 ID 在表格中重复的次数，以便我可以显示用户在购物车中拥有的商品数量。寻找
要使用的 PHP 数量
我使用许多包含来显示我网站的一小部分。使用许多 include 是否合适，或者我应该减少它们(尽可能多)。包含函数要多花多少时间？我的主页加载速度很慢。有什么方法可以让它加载更快。 (我的主页每天在
c - 如何找到数组中存在的项目的长度/数量？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: length of array in function argument 我的数组大小是5。例如: arrC
python - 是否有标准的pythonic方法来处理python中的物理单位/数量？
是否有标准的 Python 方法来处理 Python 中的物理单位/数量？我看到了来自不同领域(如物理学或神经科学)的不同模块特定解决方案。但我更愿意使用标准方法而不是“孤岛”解决方案，因为其他人应该
javascript - 有没有办法查看事件循环中的 promise 数量？
基本上就像标题所说的那样，有没有办法从 JavaScript 程序中查看事件循环中当前存在多少个 promise ？最好在 Deno 上。最佳答案 Deno v1.26 添加了一个内部 API，可用
oop - 大型项目的类(class)数量
我只是想知道大型项目-比如说航空公司的预订系统，它可能有多少类/对象。对象：客户，飞机，机场，路线，机票，订单。这就是我能想到的。该项目可能是成千上万的代码行，那么是否可能会有更多的类（执行与对象无
scala - 如何限制Scala中未处理的 future 数量？
如果有办法限制Scala中未处理的 future 数量，我将无法提供资金。例如下面的代码: import ExecutionContext.Implicits.global for (i
javascript - 获取数组的所有(数量)组合
从昨天开始，我一直在努力做到这一点，尽管还没有运气。我找到了解决方案，在我想要完成的事情上总是有细微的差别。我试图获得所有可能的组合，稍微像这样:combination_k ，但我也希望相同的项目与
quickbooks - 更新手头 IPP 数量
我正在尝试更新 1500 个 QuickBooks Online 库存项目的现有数量。我可以从商店中提取 1500 种产品。这个更新可以做吗？我看到手头没有数量的物品: https://develo
Kubernetes 不同的容器参数取决于副本集中的 pod 数量
我想与工作人员一起扩展应用程序。可能有 1 名 worker 或 100 名 worker ，我想无缝扩展它们。这个想法是使用副本集。然而，由于特定领域的原因，扩展它们的适当方法是让每个工作人员知
android - 如何计算布局中的 View 数量
Android Studio 有没有办法显示 XML 布局中存在的 View 数量？众所周知，布局应该包含 <=80 个 View ，因此超过此值就会出现此警告，因此告知数量会非常有帮助。 Layou
iphone - 保留 IBOutlet 数量
虽然编码时总是出现有关 IBOutlet 保留计数的相同问题:从 NIB 取消归档对象后保留计数？何时对 IBOutlet 使用 @property？设置时保留还是分配？ Mac 和 iPhone 之

首页

博学

6Ren·AI

商城

python - 如何找到每个客户的相似地址数量？