- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含两列的数据集:客户id
和地址
:
id addresses
1111 asturias 32, benito juarez, CDMX
1111 JOSE MARIA VELASCO, CDMX
1111 asturias 32 DEPT 401, INSURGENTES, CDMX
1111 deportes
1111 asturias 32, benito juarez, MIXCOAC, CDMX
1111 cd. de los deportes
1111 deportes, wisconsin
2222 TORRE REFORMA LATINO, CDMX
2222 PERISUR 2890
2222 WE WORK, CDMX
2222 WEWORK, TORRE REFORMA LATINO, CDMX
2222 PERISUR: 2690, COYOCAN
2222 TORRE REFORMA LATINO
我有兴趣找到每个客户的不同地址数量。例如,对于客户 id
1111,有 3 个不同的地址:
[阿斯图里亚斯 32,贝尼托胡亚雷斯,CDMX,
阿斯图里亚斯第 32 部队 401、叛乱分子、CDMX、
阿斯图里亚斯 32、贝尼托·胡亚雷斯、MIXCOAC、CDMX]
[JOSE MARIA VELASCO,CDMX]
[驱逐出境,
光盘。德洛斯驱逐者,
威斯康星州驱逐]
我用 python 编写了一段代码,它只能显示两个连续行之间的相似性:行 i
和行 i+1
(得分 0 表示完全不相似,1 表示完全相似)。
id addresses score
1111 asturias 32, benito juarez, CDMX 0
1111 JOSE MARIA VELASCO, CDMX 0
1111 asturias 32 DEPT 401, INSURGENTES, CDMX 0
1111 deportes 0
1111 asturias 32, benito juarez, MIXCOAC, CDMX 0
1111 cd. de los deportes 0.21
1111 deportes, wisconsin 0
2222 TORRE REFORMA LATINO, CDMX 0
2222 PERISUR 2890 0
2222 WE WORK, CDMX 0.69
2222 WEWORK, TORRE REFORMA LATINO, CDMX 0
2222 PERISUR: 2690, COYOCAN 0
2222 TORRE REFORMA LATINO
如果得分 > 0.20,我将认为它们是两个不同的地址。以下是我的代码:
import nltk
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
import unicodedata
import unidecode
import string
from sklearn.feature_extraction.text import TfidfVectorizer
data=pd.read_csv('address.csv')
nltk.download('punkt')
stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
def stem_tokens(tokens):
return [stemmer.stem(item) for item in tokens]
'''remove punctuation, lowercase, stem'''
def normalize(text):
return stem_tokens(
nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))
vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')
def cosine_sim(text1, text2):
tfidf = vectorizer.fit_transform([text1, text2])
return ((tfidf * tfidf.T).A)[0, 1]
cnt = np.array(np.arange(0, 5183))
indx = []
for i in cnt:
print cosine_sim(data['address'][i], data['address'][i + 1])
但是上面的代码无法比较特定客户id
的每个可能的行。我想要如下输出:
id unique address
1111 3
2222 3
3333 2
最佳答案
您可以在 itertools 中使用组合来实现此目的。请参阅下面的完整代码。
请注意,我使用分号分隔的 CSV 文件
此外,如果需要,您还可以使用 SPACY
中的similarity
函数来查找两个短语之间的相似性。这里我使用了您提供的相同功能。
import nltk
import numpy as np
import pandas as pd
import itertools
import string
from sklearn.feature_extraction.text import TfidfVectorizer
def stem_tokens(tokens):
return [stemmer.stem(item) for item in tokens]
'''remove punctuation, lowercase, stem'''
def normalize(text):
return stem_tokens(
nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))
def cosine_sim(text1, text2):
tfidf = vectorizer.fit_transform([text1, text2])
return ((tfidf * tfidf.T).A)[0, 1]
def group_addresses(addresses):
'''merge the lists if they have an element in common'''
out = []
while len(addresses)>0:
# first, *rest = addresses # for python 3
first, rest = addresses[0], addresses[1:] # for python2
first = set(first)
lf = -1
while len(first)>lf:
lf = len(first)
rest2 = []
for r in rest:
if len(first.intersection(set(r)))>0:
first |= set(r)
else:
rest2.append(r)
rest = rest2
out.append(first)
addresses = rest
return out
df=pd.read_csv("address.csv", sep=";")
stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')
sim_df = pd.DataFrame(columns=['id', 'unique address'])
for customer in set(df['id']):
customer_addresses = (df.loc[df['id'] == customer]['addresses']) #Get the addresses of each customer
all_entries = [[adr] for adr in customer_addresses] #Make list of lists
sim_pairs = [list((text1, text2)) for text1, text2 in itertools.combinations(customer_addresses, 2) if cosine_sim(text1, text2) >0.2 ] # Find all pairs whose similiarty is greater than 0.2
all_entries.extend(sim_pairs)
sim_pairs = group_addresses(all_entries)
print(customer , len(sim_pairs))
输出看起来像
2222 2
1111 3
形成的团体是
2222
['WE WORK, CDMX', 'WEWORK, TORRE REFORMA LATINO, CDMX', 'TORRE REFORMA LATINO, CDMX', 'TORRE REFORMA LATINO']
['PERISUR 2890', 'PERISUR: 2690, COYOCAN']
1111
['asturias 32 DEPT 401, INSURGENTES, CDMX', 'asturias 32, benito juarez, MIXCOAC, CDMX', 'asturias 32, benito juarez, CDMX']
['JOSE MARIA VELASCO, CDMX']
['deportes, wisconsin', 'cd. de los deportes', 'deportes']
关于python - 如何找到每个客户的相似地址数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50995179/
我有几个带有视频和图像的 Bootstrap slider 。在 slider 之外,我想要一个可以转到包含视频的幻灯片的按钮。包含视频的幻灯片的数量因 slider 而异。我想做的是获取幻灯片的数量
我在编写一个查询时遇到了一些问题。 我有一个由文件及其大小(以字节为单位)组成的表。它看起来像这样: FileUrl | FileSize ------------------ xyz.docx |
我有一个带 iframe 的网站和一个带另一个 iframe 的网站,所以它是一个 iframe 内嵌另一个 iframe(都在不同的域上)。那么有没有办法从父div或父主div的url(parent
以下表达式在 JavaScript 中给出了特殊的结果。 typeof (5 + "7") // Gives string typeof (5 - "7") // Gives number 如
我有一个名为“交易”的表,每当有人在我的网站上进行购买时,我都会在其中输入用户 ID、购买类型和金额。 我想向每个用户显示过去 7 天的这些统计信息。 目前,我有这个: $data = array()
我一整天都在努力寻找解决这一挑战的办法。 我有一张 table : id | amount | type | date |
我正在尝试在 10 个数据节点的集群中测试 Map reduce 程序的性能。在此过程中,我使用了 5 个 Reducers,然后是 10 个等等。 我在想增加 reducer 的数量也会使工作完成得
我正在使用 html5 输入 type="number"。我想监视此输入的变化,但是: 因为在支持它的浏览器中 它有旋转控件 我不能只监视 .keyup, 因为我不想等待它失去焦点,所以我不能只监视
我的购物车表格有问题。我创建了一个如下所示的表格: SQL Fiddle 我的问题是我希望能够选择产品 ID,并计算该产品 ID 在表格中重复的次数,以便我可以显示用户在购物车中拥有的商品数量。 寻找
我使用许多包含来显示我网站的一小部分。使用许多 include 是否合适,或者我应该减少它们(尽可能多)。包含函数要多花多少时间? 我的主页加载速度很慢。有什么方法可以让它加载更快。 (我的主页每天在
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: length of array in function argument 我的数组大小是5。例如: arrC
是否有标准的 Python 方法来处理 Python 中的物理单位/数量?我看到了来自不同领域(如物理学或神经科学)的不同模块特定解决方案。但我更愿意使用标准方法而不是“孤岛”解决方案,因为其他人应该
基本上就像标题所说的那样,有没有办法从 JavaScript 程序中查看事件循环中当前存在多少个 promise ?最好在 Deno 上。 最佳答案 Deno v1.26 添加了一个内部 API,可用
我只是想知道大型项目-比如说航空公司的预订系统,它可能有多少类/对象。 对象:客户,飞机,机场,路线,机票,订单。这就是我能想到的。该项目可能是成千上万的代码行,那么是否可能会有更多的类(执行与对象无
如果有办法限制Scala中未处理的 future 数量,我将无法提供资金。 例如下面的代码: import ExecutionContext.Implicits.global for (i
从昨天开始,我一直在努力做到这一点,尽管还没有运气。我找到了解决方案,在我想要完成的事情上总是有细微的差别。 我试图获得所有可能的组合,稍微像这样:combination_k ,但我也希望相同的项目与
我正在尝试更新 1500 个 QuickBooks Online 库存项目的现有数量。我可以从商店中提取 1500 种产品。 这个更新可以做吗?我看到手头没有数量的物品: https://develo
我想与工作人员一起扩展应用程序。 可能有 1 名 worker 或 100 名 worker ,我想无缝扩展它们。 这个想法是使用副本集。然而,由于特定领域的原因,扩展它们的适当方法是让每个工作人员知
Android Studio 有没有办法显示 XML 布局中存在的 View 数量?众所周知,布局应该包含 <=80 个 View ,因此超过此值就会出现此警告,因此告知数量会非常有帮助。 Layou
虽然编码时总是出现有关 IBOutlet 保留计数的相同问题:从 NIB 取消归档对象后保留计数?何时对 IBOutlet 使用 @property?设置时保留还是分配? Mac 和 iPhone 之
我是一名优秀的程序员,十分优秀!