Java模式: engineering data flows for data mining tasks-6ren

Java模式: engineering data flows for data mining tasks

转载作者：行者123 更新时间：2023-12-02 00:34:52

26

4

我是一名数据挖掘者，因此，我花了很多时间以各种方式转换原始数据，以便通过预测模型进行消费。例如，读取某种格式的文件、标记化、语法化并投影为某种数字表示形式。多年来，我开发了一套丰富的方法来完成我能想到的大多数数据处理任务，但是除了最基本的方式之外，我没有一种很好的方法来配置这些组件 - 通常我所做的是很多对源代码中依赖于特定任务的特定方法的调用。我现在正在尝试将我的库重构为更好的东西，但我不太确定这是什么。

我当前的想法是，有一个函数对象列表，每个函数对象定义一些方法(例如，操作(...))，按顺序调用，每个方法要么通过引用处理某些数据流的内容，要么消耗前一个函数对象的输出。这很接近我想要的，但是由于输入和输出的数据类型会有所不同，因此使用泛型变得非常困难。要使用上面的示例，我想通过这个处理数据的“管道”传递一些内容，例如:

input: string filename
filename -> collection of strings
collection<string> -> (stemming, stopword removal) -> collection of strings
collection<string> -> (tokenize) -> collection of string arrays
collection<string[]> -> (gram-ify) -> augment individual token strings with n-grams -> collection of string arrays
collection<string[]> -> projection into numeric vectors -> collection< double[] >

这是一个简单的示例，但想象一下我有 100 个这样的组件，并且我想将它们添加到某些数据流中。这满足了我易于配置的要求 - 我可以轻松构建一个管道工厂来读取一些 yaml 文件并构建它。然而，组件的设计模式却困扰了我一段时间？合适的接口(interface)是什么样的？似乎在这里做事情的唯一简单方法是传递对象，本质上是消除对象(或者传递一些将对象作为成员变量的上下文对象)，然后检查输入的兼容性，抛出运行时异常。这两种选择似乎都同样糟糕。然而，我觉得我已经接近一个非常好的和灵活的系统了。你们能帮我把它推过栅栏吗？

最佳答案

apache 基金会有一个名为 pipelines 的项目 https://commons.apache.org/sandbox/pipeline/ 。也许它会有用。我认为那里有更多基于管道的项目。浏览该网站可能会很有用。

关于Java模式: engineering data flows for data mining tasks，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8074199/

26

4

0

文章推荐： java - 数组列表输出

文章推荐： java - Android，动态更改 View ，添加/删除新组件

文章推荐： java - Unboundid LDAP SDK - 如何处理由多个值组成的属性值？

data-mining - "Sequential Pattern Mining"和 "Sequential Rule Mining"有什么区别
非常强大的开源数据挖掘工具 SPMF 的文档分别列出了它们: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms
data-mining - 从数据挖掘开始
我已经开始学习数据挖掘，并希望用 C++/Java 创建一个小项目，它允许我利用数据库，比如来自 twitter 的数据库，然后发布一组特定的结果(例如，提要上的所有新闻项目)。我想知道怎么办？我应该
data-mining - 数据挖掘的最小支持和最小信心
我想知道在挖掘关联规则中是否可以自动确定最小支持度和最小置信度？如果是这样，任何指向资源的提示或指针都会很棒。最佳答案是的，有一些方法可以自动确定 minsup 和 minconf 阈值。但首先
data-mining - Weka上的主成分分析
我刚刚在训练集上计算了 PCA，Weka 以选择和计算它们的方式返回了新属性。现在，我想使用这些数据构建一个模型，然后在测试集上使用该模型。不知道有没有办法根据新的属性类型自动修改测试集？最佳答
data-mining - 一个括号中的项目在顺序模式挖掘中代表什么
我见过许多用于序列模式挖掘的数据库，它们在这些数据库中采用的序列就像一个括号中的一组项目如 (af), (abf), (bde) 代表什么？这是否意味着它们彼此相关或与其他事物相关我们根据什
data-mining - 推荐系统的数据集
我想创建自己的简单推荐系统，关于书籍。但是有一些问题 - 一个人不可能(至少，非常困难)为算法组织训练数据集。那么，是否有任何免费的数据集或测验，其中包含有关人们投票的信息、哪些书籍以及他们喜欢多少
data-mining - 谷歌数据挖掘工具
我最近读到了一个来自 Google 的新的 Google 代码托管(开源)项目，该项目允许您对各种输入文件执行数据挖掘和分析。甚至还有一段视频显示用户导入 Excel 文件并在各种条件下进行过滤。但是
data-mining - 数据挖掘情况
假设我有下面提到的数据。 11AM user1 刷 11:05AM user1 Prep Brakfast 11:10AM user1 吃早餐 11:15AM user1 洗澡上午 11:30 us
data-mining - DBSCAN中的参数估计
我需要根据它们具有不同介词的分布找到自然出现的名词类别(例如实体，工具，时间，地点等)。我尝试使用k-means聚类，但效果不佳，效果不佳，在我要查找的类上有很多重叠(可能是由于类的非球形形状和k-m
data-mining - Apriori算法反单调与单调
根据维基百科，monotonic function是一个正在增加或减少的函数。如果函数在增加和减少，则它不是单调函数或反单调函数。但是数据挖掘书“数据挖掘:概念和技术”将反单调属性描述为:如果一个集
text-mining - 如何进行邮政地址模糊匹配？
我想知道当格式不同或其中一个拼写错误时如何匹配邮政地址。到目前为止，我已经找到了不同的解决方案，但我认为它们已经过时且效率不高。我确信存在一些更好的方法，所以如果你有引用资料供我阅读，我相信这个主题
data-mining - 先验方法
在weka中，我的主要目标是在0.004支持度阈值下找到所有可能的频繁项集。但是，在weka中，我还没有看到任何写支持阈值的专栏。它需要一些参数，如 -n -t -c -d 。要使用支持阈值运行 ap
data-mining - 为什么只有支持向量机中的超平面？
我最近才了解支持向量机。据我了解，超平面用于将数据(提升到更高维度)分成两个相互排斥的部分(分区)。我的问题是为什么它应该是超平面而不是具有曲率的曲面？这不会提供更适合的分离“表面”吗？最佳答案非
data-mining - 医疗机器学习数据集
我正在研究医疗数据集，其中包括有关疾病和治疗类型的变量。例如疾病是结肠癌，它的决策变量 (x,y,z,t) 和治疗类型是化疗、放射治疗等。我想为我的 KDD 和探索性类(class)获取这样的数据
data-mining - 如何检测和删除rapidminer中的噪音？
我是 Rapid miner 5 的新手，只想知道如何在我的数据中找到噪音并在图表中显示它们以及如何删除它们？最佳答案一个复杂的问题，因为它取决于您所说的噪音是什么意思。如果您的意思是查找值明显
data-mining - 关联规则挖掘和频繁项集挖掘有什么区别
我是数据挖掘的新手，并且对关联规则和频繁项挖掘感到困惑。对我来说，我认为两者都是一样的，但我需要这个论坛专家的意见我的问题是关联规则挖掘和频繁项集挖掘有什么区别？谢谢最佳答案关联规则类似于“
data-mining - 分析嘈杂的数据
我最近发射了一个带有气压高度计的火箭，该高度计精确到大约 10 英尺(通过飞行期间获取的数据计算)。记录的数据以每个样本 0.05 秒的时间增量进行，高度与时间的关系图看起来与在整个飞行过程中缩小时的
data-mining - 数据挖掘中的异常值检测
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
data-mining - sharkscope或PTR数据究竟如何挖掘所有这些手？
我很好奇这个过程是如何工作的。这些站点（http://www.sharkscope.com和http://www.pokertableratings.com）每天从安全的扑克网络（如PokerStar
data-mining - 类似Netflix的比赛
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

Java模式: engineering data flows for data mining tasks