apache-spark - 酸洗错误-Cython 与 Pyspark : scikit-learn knn with user defined metric for large dataset-6ren

apache-spark - 酸洗错误-Cython 与 Pyspark : scikit-learn knn with user defined metric for large dataset

转载作者：行者123 更新时间：2023-12-01 05:55:38

24

4

我想使用 Cython 和 Pyspark 来加速 Sklearn knn 与用户定义的度量标准，用于具有 400000 行和 65 列的大型数据集。我已按照 here 中的说明进行操作和 here .我使用的是 Spark 版本 1.6.0 和 python 2.7.13

我为一个小样本数据集编写了以下代码，但出现以下酸洗错误

Traceback (most recent call last):
File "/farzanadata/main.py", line 26, in <module>
bc_nbrs = sc.broadcast(nbrs)
File "/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/spark/python/lib/pyspark.zip/pyspark/context.py", line 741, in broadcast
File "/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/spark/python/lib/pyspark.zip/pyspark/broadcast.py", line 70, in __init__
File "/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/spark/python/lib/pyspark.zip/pyspark/broadcast.py", line 78, in dump
cPickle.PicklingError: Can't pickle <type 'function'>: attribute lookup __builtin__.function failed

spark_tools.py

def spark_cython(module, method):
 def wrapped(*args, **kwargs):
    global cython_function_
    try:
        return cython_function_(*args, **kwargs)
    except:
        import pyximport
        pyximport.install()
        cython_function_ = getattr(__import__(module), method)
    return cython_function_(*args, **kwargs)
return wrapped

临床内核.pyx

cimport cython
from libc cimport math
cimport numpy as cnp
cnp.import_array()
def mydist(cnp.npy_double[:] x,cnp.npy_double[:] y):
  cdef double ranges[3]
  cdef int k
  cdef double out=0, out2=0
  ranges[:]=  [0.04028, 0.0983, 0.06602]
  for k in range(3):
      out += (ranges[k] - math.fabs(x[k] - y[k])) / ranges[k]
  for k in range(3,5):
      out2 += x[k]==y[k]       
  return (out+out2)/5

main.py

from __future__ import print_function
from pyspark import SparkConf, SparkContext
from sklearn.neighbors import NearestNeighbors
import numpy as np
from spark_tools import spark_cython

import pyximport

conf = SparkConf().setAppName('Fibo')
sc = SparkContext(conf=conf)
sc.addFile('file:///farzanadata/clinical_kernel.pyx')
sc.addFile('file:///farzanadata/spark_tools.py')
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
pyximport.install()
import clinical_kernel
df=sc.parallelize([[0.72694,1.4742,0.32396,1,1],[0.74173,1.5257,0.36116,0,0],[0.76722,1.5725,0.38998,1,0],[0.76722, 1.5725, 0.38998,0,1]])
X=np.array(df.collect())
mapper = spark_cython('clinical_kernel', 'mydist')
nbrs=NearestNeighbors(n_neighbors=4,metric=mapper)
nbrs.fit(X)
bc_nbrs = sc.broadcast(nbrs)
neighbors=df.map(lambda x: bc_nbrs.value.kneighbors(x,n_neighbors=4,return_distance=False))
neigh_df = neighbors.map(lambda x: x.tolist()).toDF(["neighbors"])
neigh_df.show()

而不是广播 KNN 树，使用以下代码可以完美地工作，当然这对于大型数据集并不理想。

neighbors=nbrs.kneighbors(X,n_neighbors=4,return_distance=False)

使用进口莳萝作为泡菜也没有帮助

最佳答案

按照以下方式更改 sparktool.py 可以解决问题

def spark_cython(*args,**kwargs):
  global cython_function_
  module='clinical_kernel'
  method='mydist'
  try:
      return cython_function_(*args, **kwargs)
  except:
      import pyximport
      pyximport.install()
      cython_function_ = getattr(__import__(module), method)
      return cython_function_(*args, **kwargs)

关于apache-spark - 酸洗错误-Cython 与 Pyspark : scikit-learn knn with user defined metric for large dataset，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49764147/

24

4

0

文章推荐： java - open office java uno API 如何创建项目符号列表

文章推荐： jquery - 问题 listfilter 仅在某些 css 类中

文章推荐： jquery - 动态新规则验证不起作用

文章推荐： npm - Webpack:从本地目录加载依赖项

cython - cython 何时以及如何进行边界检查？
c 不做边界检查。那么cython是如何检查是否编译成c的呢？ %%cython --annotate cimport cython @cython.boundscheck(True) cpdef m
cython - Cython 中的
可以直接声明用于 Cython 构造函数？据我了解，这是可能的: # Cython cdef int[3] li = [1, 2, 3] # C++ int[3] li = {1, 2, 3} 但
cython - 在 Cython 中将结构自动转换为字典
所以，如果你有一个头文件。 %%file test.h struct mystruct{ int i; int j; }; 然后你将它包装在 Cython 中: cdef extern fr
cython - 如何在定义 cython 扩展之前识别编译器？
我正在构建一个独立于平台的 cython 项目，我想根据正在使用的编译器传递编译器参数。我可以猜测基于平台的编译器，或者假设它与用于 Python 的编译器相同，但不能保证匹配。通常我注入(injec
cython - 诗歌+狮身人面像+Cython
我使用诗歌构建我的 cython 包。我在所有函数和类中都有 NumPy 风格的文档字符串。我现在要做的是添加 Sphinx 自动文档并发布在 Read the Docs。我已阅读此主题 How d
cython - 将自定义比较器传递给 Cython 中的优先级队列
赛通 libcpp模块包含 priority_queue 的模板，这很好，除了一件事:我不能通过自定义比较器(或者，至少，我不知道如何)。我需要这个，因为我需要 priority_queue做一个a
cython - 如何在文档中显示 Cython 函数的参数？
以下代码定义了一个简单的 Cython 函数(为方便起见，使用 Ipython 魔法)。 %load_ext cython %%cython def f(float x, float y=2):
cython - 使用 Cython 进行复值计算
我正在尝试使用 cython 进行复数计算。在示例代码中，我想计算复数的复指数函数。问题是我不知道如何将我的整数乘以虚数单位。python的虚数单位1.0j乘以cython执行时报错。这是我的代码:
cython - 在 Cython 中定义字符串数组
在这里停留在一些基本的 Cython 上 - 在 Cython 中定义字符串数组的规范且有效的方法是什么？具体来说，我想定义一个定长常量数组char . (请注意，此时我不想引入 NumPy。) 在
cython - 在 Cython 中在编译时获取整数的大小
是否有可能，如果是，如何确定 Cython 中整数数据类型的大小(以位为单位)？我正在尝试做这样的事情，以获得整数大小: cdef WORD_BITS = 0 IF sizeof(unsigned
cython - 打印 cython 变量的地址
我只是想打印 cython 变量的地址，但我无法绕过错误消息: cdef int myvar print &myvar 抛出 Cannot convert 'int *' to Python obje
cython - 如何在 Cython 中扩展宏
我有一个 C 头文件，它在宏中定义了一个函数。我需要从 Cython 调用它。有没有办法在 Cython 中使用宏并使其完全扩展？我已经有了 C 类型的参数。我尝试像使用函数一样使用 cdef，我认
cython - 在 Cython 中获取结构元素
令人惊讶的是，我似乎找不到通过名称获取结构体元素的单个示例(无论是在网络上还是在 cython 示例中)。所以我收到了一个指向 C 函数结构体的指针，并且想要一一访问这些元素并将它们重新打包到 py
cython - 我的 Cython 有什么问题？
我尝试围绕 C++ 库编写一个 Cython 包装器 http://primesieve.org/ 它包装了一个函数count。到目前为止，它可以正确安装 python setup.py instal
python - Cython:ImportError:没有名为 'myModule' 的模块:如何将包含 cimport 的 cython 模块调用到另一个 cython 结节？
我正在尝试将 cython 模块 data.pyx 导入另一个 cython 模块 user.pyx。一切都编译得很好，但是当我尝试在 python 模块中调用 user.pyx 时，我收到错误“Im
cython - Bakeoff 第 1 部分 Python vs Cython vs Cython 类型化内存 View : LDA by Gibbs Sampling
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario，他指出了几个关键的变化。荒谬。当然现在的问题是，似乎不能对它们做太多算术(加法和
cython - 为什么不能腌制 cython 内存 View ？
我有一个使用 memoryview 数组的 cython 模块，即... double[:,:] foo 我想使用多处理并行运行这个模块。但是我得到了错误: PicklingError: Can't
cython - mypy 不喜欢别名 Cython 类型
我正在尝试使用 Cython 加速 PEP 484 类型的 python 脚本。我想保持一些语义和可读性。之前，我有一个 Flags = int def difference(f1: Flags,
cython - 使用 cython 为一组文件制作一个 pyd
这个问题已经有答案了: Collapse multiple submodules to one Cython extension (5 个回答) 已关闭 3 年前。我在一个包中有多个 .py 文件
cython - 如何分发从 cython 生成的 .so 文件
我已经能够在我的 .pyx 脚本上使用 cython 在 linux 上创建一个 .so 文件。我也可以成功地在我的 python 解释器上进行导入。我的问题是如何在不使用 cython 的情况下将

首页

博学

6Ren·AI

商城

apache-spark - 酸洗错误-Cython 与 Pyspark : scikit-learn knn with user defined metric for large dataset