- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我有一个像这样的矩阵:
[[5.05537647 4.96643654 4.88792309 4.48089566 4.4469417 3.7841264]
[4.81800568 4.75527558 4.69862751 3.81999698 3.7841264 3.68258605]
[4.64717983 4.60021917 4.55716111 4.07718641 4.0245128 4.69862751]
[4.51752158 4.35840703 4.30839634 3.97312429 3.9655597 3.68258605]
[4.38592909 4.33261686 4.2856032 4.26411249 4.24381326 3.7841264]]
我需要计算矩阵行之间的余弦相似度,但不使用“scipy”和“sklearn.metrics.pairwise”中的余弦相似度。但我可以使用“数学”。
我用这段代码尝试了它,但我无法理解如何迭代矩阵的每一行。
import math
def cosine_similarity(matrix):
for row1 in matrix:
for row2 in matrix:
sum1, sum2, sum3 = 0, 0, 0
for i in range(len(row1)):
a = row1[i]; b = row2[i]
sum1 += a*a
sum2 += b*b
sum3 += a*b
return sum3 / math.sqrt(sum1*sum2)
cosine_similarity(matrix)
你有什么想法我该怎么做吗?谢谢!
最佳答案
您可以使用向量化运算,因为您有一个 numpy 矩阵。此外,math.sqrt 不允许矢量化运算,因此,您可以使用 np.sqrt
向量化平方根运算。以下是将相似性索引存储在列表中并返回它的代码。
import numpy as np
def cosine_similarity(matrix):
sim_index = []
for row1 in matrix:
for row2 in matrix:
sim_index.append(sum(row1*row2)/np.sqrt(sum(row1**2) * sum(row2**2)))
return sim_index
cosine_similarity(matrix)
# 1.0,0.9985287276116063,0.9943589065201967,0.9995100043150523,0.9986115804314727,0.9985287276116063,1.0,0.9952419798474134,0.9984515542959852,0.9957338741601842,0.9943589065201967,0.9952419798474134,1.0,0.9970632589904104,0.9962784686967592,0.9995100043150523,0.9984515542959852,0.9970632589904104,1.0,0.9992584450362125,0.9986115804314727,0.9957338741601842,0.9962784686967592,0.9992584450362125,1.0
使用列表理解的进一步简短代码
sim_index = np.array([sum(r1*r2)/np.sqrt(sum(r1**2) * sum(r2**2)) for r1 in matrix for r2 in matrix])
最终列表将转换为数组以进行 reshape 以用于绘图目的。
可视化相似度矩阵:这里由于每一行都与其自身完全相同,因此相似度索引为 1(黄色)。因此,绘制的矩阵的对角线为全黄色(索引 = 1)。
import matplotlib.pyplot as plt
plt.imshow(sim_index.reshape((5,5)))
plt.colorbar()
关于python - 计算余弦相似度矩阵,无需 scipy、sklearn.metrics.pairwise,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53135709/
我尝试使用 Keras Tuner 进行超参数优化: import keras from kerastuner import HyperModel from kerastuner.tuners imp
它有一些不错的地方(比如它封装了圈复杂度的概念),我想知道是否有人在“现实生活”中使用过它。如果是这样,你有什么经验?它是衡量规模的有用指标吗(相对于 KLOC 或功能点)? 对于那些想知道我在抽什么
我有一个启用了 Actuator 和 Hystrix 的 spring-boot-app。 Spring-Boot-版本:1.3.1.RELEASE org.springframework.
我在尝试使用 metrics for graphite 时收到 carbon 错误: [listener] invalid line received from client HOST:PORT, i
尝试使用谷歌搜索,但找不到如何在 keras 中实现像 cohen kappa、roc、f1score 这样的 Sklearn 指标作为不平衡数据的指标。 如何在 Keras 中将 Sklearn M
Keras 2.x 取消了我需要使用的一堆有用指标,因此我将旧的metrics.py 文件中的函数复制到我的代码中,然后按如下方式包含它们。 def precision(y_true, y_pred)
在某些情况下, tf.metrics.auc 产生的值与 sklearn.metrics.roc_auc_score 非常不同。 我无法确定这种情况的特殊性是什么,但我能够获得一个可重现的例子: 代码
我正在使用 sklearn,我注意到 sklearn.metrics.plot_confusion_matrix 的参数和 sklearn.metrics.confusion_matrix不一致。 p
我正在使用 Prometheus(prometheus-operator Helm chart)进行内存监控。 在调查值时,我注意到内存使用量 ( container_memory_working_s
由于 codahale-metrics 已移至 io. 下。我们代码中的一个实现使用了类: import com.codahale.metrics.JmxReporter 与依赖版本 3.2.2 现在
为什么有两个不同的属性用于指标报告?是什么让它们与众不同? 如果它们不同,那么何时使用哪一个? 谢谢,阿比 最佳答案 Kafka 使用 2 个库作为其指标: "Yammer" metrics : 这些
我的目标是可视化 vertx 指标 - 例如通过 eventbus 发送的消息计数等。(请考虑以下工具都在我的本地主机上,没有任何东西驻留在单独的机器上) 因此,我使用了 vertx 的 Hawkul
我观察到一件奇怪的事情。 heap.used 随着每次后续的/metrics api 调用而增加。我是唯一使用此应用程序的客户。不知道为什么会发生。有人可以解释一下吗? “堆.已使用”:62495 “
在使用 kubeadm 安装 Kubernetes 后,我试图创建一个水平 pod 自动缩放。 主要症状是kubectl get hpa返回列 TARGETS 中的 CPU 指标作为“未定义”: $
我在 minikube 上启用了 heapster minikube addons start heapster 和自定义指标 minikube start --extra-config kubele
我尝试序列化我的 Map>对象使用 Gson但我收到 JSON 字符串响应。而且我在内部 Map 中有指标值和名称我的代码如下所示: @GetMapping(path = "/showRawKafka
我们正在尝试在台风kubernetes集群上启动metricbeat。但是由于以下原因,它在启动后无法获得一些特定于Pod的事件,例如重新启动等 对应的metricbeat.yaml代码段 # Sta
我是 k8s 的新手,普罗米修斯。我正在尝试使用 prometheus 收集每个 pod 的指标,但由于错误而无法这样做: API ERROR . { "kind": "Status", "a
我使用 xgboost 进行预测,我的主要代码如下: params={ 'booster':'gbtree', 'object':'binary:logistic', 'ear
来自OTel Metrics specification计数器是用于衡量已完成请求数的推荐工具。这稍后可用于计算吞吐率。 Example uses for Counter: count the num
我是一名优秀的程序员,十分优秀!