java - 计算相互信息以选择Java中的训练集-6ren

java - 计算相互信息以选择Java中的训练集

转载作者：塔克拉玛干更新时间：2023-11-02 07:58:50

27

4

场景

我正在尝试对Java GUI应用程序中的数据集实施监督学习。将为用户提供要检查的项目或“报告”的列表，并将基于一组可用标签为它们加标签。一旦完成监督学习，则将带标签的实例提供给学习算法。这将尝试根据用户希望查看其余项目的顺序来订购其余项目。

为了从用户的时间中获得最大收益，我想预选报告，这些报告将提供有关整个报告集合的最多信息，并让用户为它们添加标签。据我了解，要进行计算，有必要找到每个报告的所有相互信息值的总和，并按该值对它们进行排序。来自监督学习的带标记的报告随后将用于形成贝叶斯网络，以查找每个剩余报告的二进制值的概率。

示例

在这里，一个人为的示例可能会有助于解释，并且当我无疑使用了错误的术语时可能会消除混乱:-)考虑一个示例，其中应用程序向用户显示新闻故事。它根据显示的用户喜好选择首先显示哪些新闻故事。具有相关性的新闻故事的特征是country of origin，category或date。因此，如果用户将来自苏格兰的单个新闻故事标记为有趣，则它告诉机器学习者，来自苏格兰的其他新闻故事对用户来说很有可能会增加。类似类别(例如“体育”)或日期(例如2004年12月12日)。

可以通过为所有新闻故事选择任何顺序(例如按类别，按日期)或随机排序它们，然后随着用户的前进来计算偏好来计算该偏好。我想做的是通过让用户查看少量特定的新闻故事并说出他们是否对它们感兴趣(监督学习部分)，从而在该顺序上获得“领先”。要选择向用户显示哪些故事，我必须考虑整个故事集。这就是相互信息的来源。对于每个故事，我想知道当用户对故事进行分类时，它可以告诉我多少其他故事。例如，如果有大量源自苏格兰的故事，我想让用户对(至少)其中一个进行分类。与其他相关功能(例如类别或日期)相似。目的是查找报告的示例，这些示例在分类后可提供有关其他报告的最多信息。

问题

因为我的数学有点生疏，而且我是机器学习的新手，所以在将“相互信息”的定义转换为Java实现时遇到了一些麻烦。维基百科将共同信息的等式描述为:

但是，我不确定在没有分类的情况下该方法是否可以实际使用，并且学习算法尚未计算任何内容。

在我的示例中，假设我有大量此类的新的，未标记的实例:

public class NewsStory {
    private String countryOfOrigin;
    private String category;
    private Date date;
    // constructor, etc.
}

在我的特定情况下，字段/功能之间的相关性基于精确匹配，因此，例如，日期和10年的日期差在其不等式上是等效的。

相关因子(例如，日期比类别更相关吗？)不一定相等，但是它们可以是预定义的且恒定的。这是否意味着 p(x,y)函数的结果是预定义的值，还是我混淆了术语？

问题(最终)

给定这个(虚假的)新闻报道示例，我该如何去实现相互信息计算？库，javadoc，代码示例等都是欢迎信息。同样，如果这种方法从根本上来说是有缺陷的，那么解释这种情况的原因将是同样有价值的答案。

PS。我知道诸如Weka和Apache Mahout之类的库，因此仅提及它们对我而言并没有真正的用处。我仍在搜索这两个库的文档和示例，以专门查找相互信息。真正帮助我的是指向这些库在相互信息帮助下的资源(代码示例，javadoc)。

最佳答案

我猜你的问题有点像...

“给出一个未标记示例的列表，对列表进行排序，如果用户标记了示例并将其添加到训练集中，则模型的预测准确性将提高多少。”

如果是这样，我认为互信息不是使用的正确方法，因为您无法计算两个实例之间的MI。 MI的定义是根据随机变量，单个实例不是随机变量，而只是一个值。

特征和类标签可以是随机变量。也就是说，它们在整个数据集中具有值的分布。您可以计算两个功能部件之间的相互信息，以了解如何为一个功能部件赋予另一个功能部件“冗余”，或者在一个功能部件和类标签之间获得相互信息，以了解该功能部件可以为预测提供多少帮助。这是人们通常在监督学习问题中使用互信息的方式。

我认为Ferdystschenko的建议是，您应该选择主动学习方法。

为了回应Grundlefleck的评论，我将使用他关于Java对象类比的思想来更深入地介绍术语。

我们共同使用术语“实例”，“事物”，“报告”和“示例”来指代被分类的对象。让我们将这些东西视为Java类的实例(我省略了样板构造器):


class Example
{ String f1;
  String f2;
}

Example e1 = new Example("foo", "bar");
Example e2 = new Example("foo", "baz");

机器学习中常用的术语是e1是一个示例，所有示例都具有两个特征f1和f2，对于e1，f1取值'foo'，而f2取值'bar'。示例的集合称为数据集。

对于数据集中的所有示例，取f1的所有值，这是字符串列表，也可以认为是分布。我们可以将特征视为一个随机变量，并且列表中的每个值都是从该随机变量中获取的样本。因此，我们可以例如计算f1和f2之间的MI。伪代码将类似于:

mi = 0
for each value x taken by f1:
{  sum = 0
   for each value y taken by f2:
   {  p_xy = number of examples where f1=x and f2=y
      p_x = number of examples where f1=x
      p_y = number of examples where f2=y
      sum += p_xy * log(p_xy/(p_x*p_y))
   }
   mi += sum
}

但是，您无法计算e1和e2之间的MI，只是没有这样定义。

关于java - 计算相互信息以选择Java中的训练集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2002521/

27

4

0

文章推荐： java - setContextClassLoader 在并发调用时速度急剧下降

文章推荐： iOS - 创建自定义推送转场动画

文章推荐： java - 具有图形输出的轻量级微基准库 (Java)

java - JPA 选择(选择)
是否有某种方法可以使用 JPA 或 Hibernate Crtiteria API 来表示这种 SQL？或者我应该将其作为 native 执行吗？ SELECT A.X FROM (SELECT X,
mysql - 选择 1 - 选择 2
在查询中， select id,name,feature,marks from (....) 我想删除其 id 在另一个 select 语句中存在的那些。从 (...) 中选择 id 我是 sql
javascript - 选择 HTML 选择/下拉列表中的项目时会触发什么事件？
我想响应用户在 select 元素中选择一个项目。然而这个 jQuery: $('#platypusDropDown').select(function () { alert('You sel
sql - 选择..来自(选择..来自..)。如何改进此查询？
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个回答) 关闭8年前。我正在学习 SQL
php - mysqli查询(选择)不起作用(选择)php
This question already has answers here: “Notice: Undefined variable”, “Notice: Undefined index”, and
php - SQL - 如果存在 - 选择 A - 否则 - 选择 B
我在 php 脚本中调用 SQL。有时“DE”中没有值，如果是这种情况我想从“EN”中获取值应该是这样的，但不是这样的 IF (EXISTS (SELECT epf_application_deta
mysql - 选择 TableName.Col1 VS 选择 Col1
这可能是一个奇怪的问题，但不知道如何研究它。执行以下查询时: SELECT Foo.col1, Foo.col2, Foo.col3 FROM Foo INNER JOIN Bar ON
javascript - 如何在 phonegap 中同时使用相机 API 选择(选择)多张图像？
如何在使用 Camera.DestinationType.FILE_URI. 时在 phonegap camera API 中同时选择或拾取多个图像我能够一次只选择一张图像。我可以使用 this 在
sql-server - 如果存在(选择 1...)与如果存在(选择 TOP 1 1...)
这是一个纯粹的学术问题。这两个陈述实际上是否相同？ IF EXISTS (SELECT TOP 1 1 FROM Table1) SELECT 1 ELSE SELECT 0 相对 IF EXIS
java - JSoup 根据 Id 选择 Div，根据 title 选择 href
我使用 JSoup 来解析 HTML 响应。我有多个 Div 标签。我必须根据 ID 选择 Div 标签。我的伪代码是这样的 Document divTag = Jsoup.connect(link
JavaScript 选择
我正在处理一个具有多个选择框的表单。当用户从 selectbox1 中选择一个选项时，我需要 selectbox2 active 的另一个值。同样，当他选择 selectbox2 的另一个值时，我需要
jQuery 选择
Acme Inc. Christa Woods Charlotte Freeman Jeffrey Walton Ella Hubbard Se
php数据库连接/选择
我有一个login.html其中form定义如下: First Initial Plus Last Name : 我的do_authorize如下: "; pri
JavaScript 选择
$.get( 'http://www.ufilme.ro/api/load/maron_online/470', function(data
Javascript 选择
我有一个下拉列表“磅”、“克”、“千克”和“盎司”。我想要这样一种情况，当我选择 gram 来执行一个函数时，当我在输入字段中输入一个值时，当我选择 pounds 时，我想要另一个函数来执行时我在输入
GLSL channel 选择
我有一个 GLSL 着色器，它从输入纹理的 channel 之一(例如 R)读取，然后写入输出纹理中的同一 channel 。该 channel 必须由用户选择。我现在能想到的就是使用一个 int
html - 如何根据下拉列表中的选定数字生成表单输入字段(选择)
我想根据下拉列表中的选定值生成输入文本框。 Options 2 3 4 5 就在这个选择框之后，一些输入字段应该按照选定的数字出现。最佳答案我建议您使用响应式(Reac
优先选择列值的 SQL 选择
我是 SQL 新手，我想问一下如何根据首选项和分组选择条目。 +----------+----------+------+ | ENTRY_ID | ROUTE_ID | TYPE | +------
sql - 选择 * 进入失败
我有以下表结构: CREATE TABLE [dbo].[UTS_USERCLIENT_MAPPING_USER_LIST] ( [MAPPING_ID] [int] IDENTITY(1,1
vba 选择/删除除第一个以外的所有工作表
我在移除不必要的床单时遇到了问题。我查看了不同的论坛并将不同的解决方案混合在一起。此宏删除工作表(第一张工作表除外)。 Sub wrong() Dim sht As Object Applicati

首页

博学

6Ren·AI

商城

java - 计算相互信息以选择Java中的训练集