python - 使用自定义指标 : pairwise_distances throwing error 的 sklearn 聚类-6ren

python - 使用自定义指标 : pairwise_distances throwing error 的 sklearn 聚类

转载作者：行者123 更新时间：2023-11-28 18:57:12

24

4

我想使用我自己的指标对空间数据集进行聚类。数据以数据帧中的成对 (x,y) 值的形式出现，其中每组成对都有一个 id。就像在下面的示例中，我有三组点:

import pandas as pd 
import numpy as np

df = pd.DataFrame({'id': [1] * 4 + [2] * 5 + [3] * 3, 
                   'x': np.random.random(12),
                   'y': np.random.random(12)}) 
df['xy'] = df[['x','y']].apply(lambda row: [row['x'],row['y']], axis = 1)

这是我想使用的距离函数:

from scipy.spatial.distance import directed_hausdorff
def some_distance(u, v):
    return max(directed_hausdorff(u, v)[0], directed_hausdorff(v, u)[0])

此函数计算 Hausdorff distance ，即 n 维空间的两个子集 u 和 v 之间的距离。在我的例子中，我想使用这个距离函数来聚类真实平面的子集。在上面的数据中有三个这样的子集(ids 从 1 到 3)所以生成的距离矩阵应该是 3x3。

我对聚类步骤的想法是使用 sklearn.cluster.AgglomerativeClustering 和一个预先计算的指标，反过来我想用 sklearn.metrics.pairwise import pairwise_distances。

from sklearn.metrics.pairwise import pairwise_distances
def to_np_array(col):
    return np.array(list(col.values))
X = df.groupby('id')['xy'].apply(to_np_array).as_matrix()
m = pairwise_distances(X, X, metric=some_distance)

但是，最后一行给我一个错误:

ValueError: setting an array element with a sequence.

然而，工作正常的是调用 some_distance(X[1], X[2])。我的预感是 X 需要采用不同的格式才能使 pairwise_distances 正常工作。关于如何使这项工作或如何自己计算矩阵以便我可以将其粘贴到 sklearn.cluster.AgglomerativeClustering 中的任何想法？

错误栈是

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-e34155622595> in <module>
     12 def some_distance(u, v):
     13     return max(directed_hausdorff(u, v)[0], directed_hausdorff(v, u)[0])
---> 14 m = pairwise_distances(X, X, metric=some_distance)

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\metrics\pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds)
   1430         func = partial(distance.cdist, metric=metric, **kwds)
   1431 
-> 1432     return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
   1433 
   1434 

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\metrics\pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds)
   1065 
   1066     if effective_n_jobs(n_jobs) == 1:
-> 1067         return func(X, Y, **kwds)
   1068 
   1069     # TODO: in some cases, backend='threading' may be appropriate

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\metrics\pairwise.py in _pairwise_callable(X, Y, metric, **kwds)
   1079     """Handle the callable case for pairwise_{distances,kernels}
   1080     """
-> 1081     X, Y = check_pairwise_arrays(X, Y)
   1082 
   1083     if X is Y:

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\metrics\pairwise.py in check_pairwise_arrays(X, Y, precomputed, dtype)
    106     if Y is X or Y is None:
    107         X = Y = check_array(X, accept_sparse='csr', dtype=dtype,
--> 108                             warn_on_dtype=warn_on_dtype, estimator=estimator)
    109     else:
    110         X = check_array(X, accept_sparse='csr', dtype=dtype,

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\utils\validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
    525             try:
    526                 warnings.simplefilter('error', ComplexWarning)
--> 527                 array = np.asarray(array, dtype=dtype, order=order)
    528             except ComplexWarning:
    529                 raise ValueError("Complex data not supported\n"

C:\ProgramData\Anaconda3\lib\site-packages\numpy\core\numeric.py in asarray(a, dtype, order)
    536 
    537     """
--> 538     return array(a, dtype, copy=False, order=order)
    539 
    540 

ValueError: setting an array element with a sequence.

最佳答案

试试这个:

import numpy as np
import pandas as pd
from scipy.spatial.distance import directed_hausdorff
from sklearn.metrics.pairwise import pairwise_distances
from sklearn.cluster import AgglomerativeClustering

df = pd.DataFrame({'id': [1] * 4 + [2] * 5 + [3] * 3, 'x':
np.random.random(12), 'y': np.random.random(12)}) 
df['xy'] = df[['x','y']].apply(lambda row: [row['x'],row['y']], axis = 1)
df.groupby('id')['xy'].apply(to_np_array)


def some_distance(u, v):
    return max(directed_hausdorff(u, v)[0], directed_hausdorff(v, u)[0])


def to_np_array(col):
    return np.array(list(col.values))


X = df.groupby('id')['xy'].apply(to_np_array)
d = np.zeros((len(X),len(X)))

for i, u in enumerate(X):
    for j, v in list(enumerate(X))[i:]:
        d[i,j] = some_distance(u,v)
        d[j,i] = d[i,j]

现在，当您打印 d 时，您会得到:

array([[0.        , 0.58928274, 0.40767213],
   [0.58928274, 0.        , 0.510095  ],
   [0.40767213, 0.510095  , 0.        ]])

对于聚类:

cluster = AgglomerativeClustering(n_clusters=2, affinity='precomputed', linkage = 'average')
cluster.fit(d)

关于python - 使用自定义指标 : pairwise_distances throwing error 的 sklearn 聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56913478/

24

4

0

文章推荐： python - 守护 python 脚本需要什么？

文章推荐： python - Pandas-在各种日期时间范围内合并分钟数

文章推荐： python - Discord.py - 如何为每个服务器制作齿轮

rust - 如何将 serde_json::error::Error 转换为 reqwest::error::Error？
reqwest v0.9 将 serde v1.0 作为依赖项，因此实现 converting serde_json errors into reqwest error . 在我的代码中，我使用 se
error-handling - 有没有办法将 std::io::Error 转换为 failure::error::Error？
我有这个代码: let file = FileStorage { // ... }; file.write("Test", bytes.as_ref()) .map_err(|e| Mu
角度攀登: Error: No errors
我只是尝试用angular-cli创建一个新项目，然后运行服务器，但是它停止并显示一条有趣的消息:Error: No errors。我以这种方式更新了(希望有帮助):npm uninstall -g
payload - 我收到错误 : "MetaMask - RPC Error: Error: Error: [ethjs-rpc] rpc error with payload"
我从我的 javascript 发送交易 Metamask 打开传输对话框我确定 i get an error message in metamask (inpage.js:1 MetaMask -
error-handling - 使用 Box 装箱后如何处理不同的错误类型？
这个问题在这里已经有了答案: How do you define custom `Error` types in Rust? (3 个答案) How to get a reference to a
swift - error = error 与 error != nil 之间的区别
我想知道两者之间有什么大的区别 if let error = error{} vs if error != nil?或者只是人们的不同之处，比如他们如何用代码表达自己？例如，如果我使用这段代码: u
blazor - 错误 : Connection disconnected with error 'Error: Server returned an error on close: Connection closed with an error.'
当我尝试发送超过 50KB 的图像时，我在 Blazor 服务器应用程序上收到以下错误消息 Error: Connection disconnected with error 'Error: Serv
jsf - JSF : error handling with and JSF1073 error
我有一个error-page指令，它将所有异常重定向到错误显示页面我的web.xml: [...] java.lang.Exception /vi
node.js - 如何修复 'error: Error: syntax error - at value'
我有这样的对象: address: { "phone" : 888, "value" : 12 } 在 WHERE 中我需要通过 address.value 查找对象，但是在 SQL 中有函数
c++ - '标识符' : redefinition errors ( error C2011 & error C2370)
每次我尝试编译我的代码时，我都会遇到大量错误。这不是我的代码的问题，因为它在另一台计算机上工作得很好。我尝试重新安装和修复，但这没有帮助。这是整个错误消息: 1>------ Build starte
error-handling - Bison : one error causes additional but incorrect error
在我的代码的类部分，如果我写一个错误，则在不应该的情况下，将有几行报告为错误。我将'| error'放在可以从错误中恢复的良好/安全位置，但是我认为它没有使用它。也许它试图在某个地方恢复中间表情？有
Python捕获异常 "pandas.errors.ParserError: Error tokenizing data. C error"
我遇到了 csv 输入文件整体读取故障的问题，我可以通过在 read_csv 函数中添加 "error_bad_lines=False" 来删除这些问题来解决这个问题。但是我需要报告这些造成问题的文
java - Spring : How to resolve a validation error -> error code -> error message
在 Spring 中，验证后我们在 controller 中得到一个 BindingResult 对象。很简单，如果我收到验证错误，我想重新显示我的表单，并在每个受影响的字段上方显示错误消息。因此
eclipse - Java 运行时环境检测到 fatal error : Internal Error ; Error: ShouldNotReachHere()
我不知道出了什么问题，因为我用 Java 编程了大约一年，从来没有遇到过这个错误。在一分钟前在 Eclipse 中编译和运行工作，现在我得到这个错误: #A fatal error has been
postgresql - Postgres : Error [42601] Error: Syntax error at or near "$2". 执行查询时出错
SELECT to_char(messages. TIME, 'YYYY/MM/DD') AS FullDate, to_char(messages. TIME, 'MM/DD
.net - VB.NET : error BC30037, followed by error BC30627 and error BC30465
我收到这些错误: AnonymousPath\Anonymized.vb : error BC30037: Character is not valid. AnonymousPath\Anonymiz
sungridengine - 网格引擎 : error: commlib error: got select error (connection refused)
我刚刚安装了 gridengine 并在执行 qstat 时出现错误: error: commlib error: got select error (Connection refused) erro
php - 尖叫 : Error suppresion ignored for Parse error: syntax error PHP
嗨，我正在学习 PHP，我从 CRUD 系统开始，我在 Windows 上安装了 WAMP 服务器，当我运行它时，我收到以下错误消息。 SCREAM: Error suppression ignore
swift - fatal error : Unresolved error Error Domain=NSCocoaErrorDomain Code=134140
我刚刚开始一个新项目，我正在学习核心数据教程，可以找到:https://www.youtube.com/watch?v=zZJpsszfTHM 我似乎无法弄清楚为什么会抛出此错误。我有一个名为“Exp
c++ - JENKINS BUILD ERROR fatal error C1853 : precompiled header error
当我使用 Jenkins 运行新构建时，出现以下错误: "FilePathY\XXX.cpp : fatal error C1853: 'FilePathZ\XXX.pch' precompiled

首页

博学

6Ren·AI

商城

python - 使用自定义指标 : pairwise_distances throwing error 的 sklearn 聚类