- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个学校项目,要编写一个使用Weka工具进行足球(足球)比赛预测的程序。
由于算法已经存在(J48算法),因此我只需要数据。我找到了一个免费提供足球比赛数据的网站,并在Weka进行了尝试,但预测结果很糟糕,因此我认为我的数据结构不正确。
我需要从源中提取数据并以另一种方式对其进行格式化,以便为模型创建新的属性和类。是否有人知道有关如何正确创建用于机器学习预测的属性和类的课程/教程/指南?是否有一个标准描述了选择用于训练机器学习算法的数据集属性的最佳方法?这有什么办法?
这是我目前拥有的数据的示例:http://www.football-data.co.uk/mmz4281/1516/E0.csv
列的含义如下:http://www.football-data.co.uk/notes.txt
最佳答案
问题可能是您拥有的数据集太小。假设您有十个变量,每个变量的范围是10个值。这些变量有10 ^ 10种可能的配置。您的数据集不可能这么大,更不用说涵盖所有可能的配置了。诀窍是将变量缩小到最相关的变量,以避免潜在的巨大搜索空间。
第二个问题是变量的某些组合可能比其他组合更重要。
J48算法尝试使用树中每个级别的熵来找到最相关的变量。穿过树的每个路径都可以被视为与条件:V1 == a&V2 == b ...
这涵盖了由于联合互动而产生的意义。但是,如果结果是A&B&C或W&X&Y的结果呢? J48算法只会找到一个,它将是第一个选择的变量在单独考虑时具有最全面的意义的算法。
因此,要回答您的问题,您不仅需要找到一个涵盖“一般”总体中最常见的变量配置的训练集,还需要找到一个能够忠实地代表这些训练案例的算法。忠实的含义通常适用于未见过的案件。
这不是一件容易的事。体育博彩涉及很多人和很多钱。如果只要选择合适的训练集一样容易,那么您可以确定现在可以找到它。
编辑:
评论中有人问您如何找到合适的算法。答案与您在大海捞针中找到针头的方式相同。没有固定的规则。您可能很幸运并且偶然发现了它,但是在广阔的搜索空间中,您永远不会知道自己是否拥有它。这与在非常复杂的搜索空间中找到最佳点是相同的问题。
短期的答案是
考虑一下该算法真正可以完成的工作。 J48(和类似的)算法最适合用于分类,其中变量对结果的影响是众所周知的,并且遵循层次结构。花卉分类就是其中一个可能会出类拔萃的例子。
根据训练集检查模型。如果在训练集上效果不佳,那么在看不见数据的情况下,性能可能会很差。通常,您应该期望模型对训练的性能超过对看不见的数据的性能。
该算法需要用从未见过的数据进行测试。针对训练集进行测试,同时进行快速淘汰测试,可能会导致过度自信。
保留一些数据进行测试。 Weka提供了一种方法。最好的情况是在除一种情况下(其余方法)建立模型,然后查看模型在这些情况下的平均表现。
但这是假设手头的数据没有任何偏差。
第二个陷阱是让测试结果偏向于构建模型的方式,例如,尝试不同的模型参数,直到获得可接受的测试响应为止。使用J48,让这种偏差蔓延并不容易,但是如果这样做的话,您只是将测试集用作辅助训练集。
继续收集更多数据;测试越长越好。即使经过以上所有操作,您仍然不会知道该算法的实用性,除非您可以在以后的情况下观察其性能。当看起来好的模型开始表现不佳时,就该回到绘图板上了。
令人惊讶的是,有很多领域(大多数是在软科学领域)未能看到需要使用未来数据来验证模型的需求。但这是在其他地方更好讨论的问题。
这可能不是您要寻找的答案,但事实就是如此。
综上所述,
训练数据集应涵盖“重要”变量配置
您应该针对看不见的数据验证模型
识别(1)和执行(2)是棘手的位。没有可遵循的干法配方。
关于machine-learning - 如何为机器学习和预测建立良好的训练数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36179454/
我正在尝试使用 Excel 中的间接函数来构建公式以在另一张纸上返回值。 在工作表 A 单元格 D3 的值为 B 我想使用值 B 从名为 App Summary 的工作表中的单元格 B6 返回一个值。
我目前正在使用 LumiSoft 的 SIP 堆栈,并且能够在我的 FreePBX 盒子上成功注册分机并调用另一个软电话。我现在需要做的就是通过调用流式传输 WAV 文件(或 RAW,或任何可行的文件
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (65 个回答) 已关闭 8 年前。 我有一个安卓 Activ
我正在使用 ws npm 在服务器端,websocket 在客户端。 从 node-js 运行此代码时它工作正常,但从浏览器运行它会出现以下错误: failed: Error in connectio
当我将鼠标悬停在想要淡入和淡出的内容上多次时,它就会不断重复。即使我停止悬停它。我怎样才能阻止这个? $(".featured").hover(function(){ $(this).find
我需要建立一个 mysql 连接并取回一些数据。我可以使用此代码在 Java 中执行此操作 try{ String username;
不能制造愚蠢。具有下一个文件夹结构: /flint/double-conversion/src /燧石/愚蠢/愚蠢/ 其中/flint/folly 包含自述文件和许可证。作为in the readme
我想在编译主单元之前在程序集中嵌入本地引用。但书面目标不起作用。 WithMetadataValue( 'CopyLocal', 'true' )->Met
我不是软件专家,但我确实需要一些建议。 我正在编写一个 C 程序(在下面剪切/粘贴)以通过 LAN(以太网)建立从我的 Mac Pro 到位于它旁边的基于 Windows XP 的测试仪器的 TCP
我正在构建一个应用程序,我的手机经常将数据发送到我的服务器。由于我将使用我的移动数据,我想知道建立(和拆除?)到我的服务器的 TCP 连接需要多少数据。 最佳答案 TCP 三向握手 Device 1
我有一个带有登录表单的网站。当加载登录表单页面时,我创建一个新的 PDO 对象以查看连接是否正常工作。如果成功打开连接,查看者将看到一个登录表单。如果不成功,他们会收到一条消息,说明服务器已关闭。 然
构建我的Electron应用程序后,它将显示产品名称undefined。如何设置其他名称呢? 当前是这样的: 最佳答案 请尝试此操作。引用此链接 https://www.electronjs.org/
我有一个项目在哪里使用这个 jar 。 据我所知...发生 war 之后,文件夹WEB-INF/lib必须具有: mail-1.4.1.jar activation-1.1.jar mysql-con
代码: %{ #include #include #include #include "gener.h" #include "sym_tab.h" #include "scope.h" #inc
我需要将侧边栏小部件集成到我的高流量页面(称为SiteA)中。该小部件应包含我的其他页面之一(称为 SiteB)的最新文章。 在我看来,我有两种可能的解决方案。 SiteA 上的 cUrl 调用从 S
我正在尝试建立 Cortana 技能,以便能够使用 Surface 相机拍照。怎么做?目前我的技能是能够使用bot框架和使用nodejs来回答问题。代码看起来像 bot.dialog('ScanCar
这个问题在这里已经有了答案: Resolving javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorExce
当我与网络服务器建立 https 连接时出现 SSLProtocolException。我只在 Android 2.3 Gingebread 中有这个异常(exception);相同的代码在所有其他
我想做的是指定几个端口,然后检查它们是否已建立连接。我找到了以下脚本并运行了,但它只列出了 3 个端口,我不明白为什么。我验证了相关端口的事件规则(以及下面输出中未列出的许多其他端口)。 Set ob
使用 MySQL 我试图使用已经上传到数据库中的数据建立一对多关系。举个例子,假设我在一个表中有一个名字列表,我想将它们连接到一个他们去过的地方的列表。显然 1 个人可以去很多不同的地方,但我在设置时
我是一名优秀的程序员,十分优秀!