gpt4 book ai didi

numpy - 如何避免最大。 JPMML 输入字段的数量

转载 作者:行者123 更新时间:2023-11-30 09:31:47 24 4
gpt4 key购买 nike

我在 JPMML (scala) 中使用带有许多输入字段的 PMML 模型时遇到问题。下面是一个最小的示例:加载 300x150 像素的图像并将其用作 PCA (python) 的输入:

img = PIL.Image.open(filename)
img = img.resize(STANDARD_SIZE) # 300x150
img = np.array([int(np.mean(a)) for a in img])

pca = PCA(svd_solver=pca_method,n_components = components)
train = pca.fit_transform(train_x)

pipeline = PMMLPipeline(([('pca', pca), ('knn', neigh)]))
sklearn2pmml(pipeline, "/tmp/pca.pmml")

第二步应该使用 JPMML (scala) 加载该模型:

val evaluator = new LoadingModelEvaluatorBuilder()
.setLocatable(false)
.load(new File("/tmp/pca.pmml"))
.build()
evaluator.verify()

这将导致非常明显的异常:

Exception in thread "main" org.jpmml.evaluator.InvalidElementException: Model has too many input fields
at org.jpmml.evaluator.ModelEvaluatorBuilder.checkSchema(ModelEvaluatorBuilder.java:135)
at org.jpmml.evaluator.ModelEvaluatorBuilder.build(ModelEvaluatorBuilder.java:115)
...

如果您查看源代码,您可以在 ModelEvaluatorBuilder 中发现以下限制:

if((inputFields.size() + groupFields.size()) > 1000){
throw new InvalidElementException("Model has too many input fields", miningSchema);
}

所以我的 45k 输入字段太多了。如果我的 PMML 文档正确,我只能对 inpt 字段使用原子数据类型(int、char、double 等)。

有什么想法可以真正解决这个限制吗?

最佳答案

您可以使用自己的检查逻辑(例如“接受所有内容”)覆盖 ModelEvaluatorBuilder#checkSchema(ModelEvaluator) 方法:

evaluator = new LoadingModelEvaluatorBuilder(){
@Override
protected void checkSchema(ModelEvaluator<?> modelEvaluator){
// Anything goes - I'm willing to accept the responsibility for my own actions
}
}
.setLocatable(false)
.load(new File("/tmp/pca.pmml"))
.build();

这种健全性检查的存在是有原因的。 (J)PMML 不适用于处理二进制 blob(例如图像),并且将图像对象表示为 45k 双字段是一个非常糟糕的主意。

关于numpy - 如何避免最大。 JPMML 输入字段的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54952581/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com