- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
场景
我正在尝试对Java GUI应用程序中的数据集实施监督学习。将为用户提供要检查的项目或“报告”的列表,并将基于一组可用标签为它们加标签。一旦完成监督学习,则将带标签的实例提供给学习算法。这将尝试根据用户希望查看其余项目的顺序来订购其余项目。
为了从用户的时间中获得最大收益,我想预选报告,这些报告将提供有关整个报告集合的最多信息,并让用户为它们添加标签。据我了解,要进行计算,有必要找到每个报告的所有相互信息值的总和,并按该值对它们进行排序。来自监督学习的带标记的报告随后将用于形成贝叶斯网络,以查找每个剩余报告的二进制值的概率。
示例
在这里,一个人为的示例可能会有助于解释,并且当我无疑使用了错误的术语时可能会消除混乱:-)考虑一个示例,其中应用程序向用户显示新闻故事。它根据显示的用户喜好选择首先显示哪些新闻故事。具有相关性的新闻故事的特征是country of origin
,category
或date
。因此,如果用户将来自苏格兰的单个新闻故事标记为有趣,则它告诉机器学习者,来自苏格兰的其他新闻故事对用户来说很有可能会增加。类似类别(例如“体育”)或日期(例如2004年12月12日)。
可以通过为所有新闻故事选择任何顺序(例如按类别,按日期)或随机排序它们,然后随着用户的前进来计算偏好来计算该偏好。我想做的是通过让用户查看少量特定的新闻故事并说出他们是否对它们感兴趣(监督学习部分),从而在该顺序上获得“领先”。要选择向用户显示哪些故事,我必须考虑整个故事集。这就是相互信息的来源。对于每个故事,我想知道当用户对故事进行分类时,它可以告诉我多少其他故事。例如,如果有大量源自苏格兰的故事,我想让用户对(至少)其中一个进行分类。与其他相关功能(例如类别或日期)相似。目的是查找报告的示例,这些示例在分类后可提供有关其他报告的最多信息。
问题
因为我的数学有点生疏,而且我是机器学习的新手,所以在将“相互信息”的定义转换为Java实现时遇到了一些麻烦。维基百科将共同信息的等式描述为:
但是,我不确定在没有分类的情况下该方法是否可以实际使用,并且学习算法尚未计算任何内容。
在我的示例中,假设我有大量此类的新的,未标记的实例:
public class NewsStory {
private String countryOfOrigin;
private String category;
private Date date;
// constructor, etc.
}
p(x,y)
函数的结果是预定义的值,还是我混淆了术语?
最佳答案
我猜你的问题有点像...
“给出一个未标记示例的列表,对列表进行排序,如果用户标记了示例并将其添加到训练集中,则模型的预测准确性将提高多少。”
如果是这样,我认为互信息不是使用的正确方法,因为您无法计算两个实例之间的MI。 MI的定义是根据随机变量,单个实例不是随机变量,而只是一个值。
特征和类标签可以是随机变量。也就是说,它们在整个数据集中具有值的分布。您可以计算两个功能部件之间的相互信息,以了解如何为一个功能部件赋予另一个功能部件“冗余”,或者在一个功能部件和类标签之间获得相互信息,以了解该功能部件可以为预测提供多少帮助。这是人们通常在监督学习问题中使用互信息的方式。
我认为Ferdystschenko的建议是,您应该选择主动学习方法。
为了回应Grundlefleck的评论,我将使用他关于Java对象类比的思想来更深入地介绍术语。
我们共同使用术语“实例”,“事物”,“报告”和“示例”来指代被分类的对象。让我们将这些东西视为Java类的实例(我省略了样板构造器):
class Example
{ String f1;
String f2;
}
Example e1 = new Example("foo", "bar");
Example e2 = new Example("foo", "baz");
mi = 0
for each value x taken by f1:
{ sum = 0
for each value y taken by f2:
{ p_xy = number of examples where f1=x and f2=y
p_x = number of examples where f1=x
p_y = number of examples where f2=y
sum += p_xy * log(p_xy/(p_x*p_y))
}
mi += sum
}
关于java - 计算相互信息以选择Java中的训练集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2002521/
是否有某种方法可以使用 JPA 或 Hibernate Crtiteria API 来表示这种 SQL?或者我应该将其作为 native 执行吗? SELECT A.X FROM (SELECT X,
在查询中, select id,name,feature,marks from (....) 我想删除其 id 在另一个 select 语句中存在的那些。 从 (...) 中选择 id 我是 sql
我想响应用户在 select 元素中选择一个项目。然而这个 jQuery: $('#platypusDropDown').select(function () { alert('You sel
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个回答) 关闭8年前。 我正在学习 SQL
This question already has answers here: “Notice: Undefined variable”, “Notice: Undefined index”, and
我在 php 脚本中调用 SQL。有时“DE”中没有值,如果是这种情况我想从“EN”中获取值 应该是这样的,但不是这样的 IF (EXISTS (SELECT epf_application_deta
这可能是一个奇怪的问题,但不知道如何研究它。执行以下查询时: SELECT Foo.col1, Foo.col2, Foo.col3 FROM Foo INNER JOIN Bar ON
如何在使用 Camera.DestinationType.FILE_URI. 时在 phonegap camera API 中同时选择或拾取多个图像我能够一次只选择一张图像。我可以使用 this 在
这是一个纯粹的学术问题。这两个陈述实际上是否相同? IF EXISTS (SELECT TOP 1 1 FROM Table1) SELECT 1 ELSE SELECT 0 相对 IF EXIS
我使用 JSoup 来解析 HTML 响应。我有多个 Div 标签。我必须根据 ID 选择 Div 标签。 我的伪代码是这样的 Document divTag = Jsoup.connect(link
我正在处理一个具有多个选择框的表单。当用户从 selectbox1 中选择一个选项时,我需要 selectbox2 active 的另一个值。同样,当他选择 selectbox2 的另一个值时,我需要
Acme Inc. Christa Woods Charlotte Freeman Jeffrey Walton Ella Hubbard Se
我有一个login.html其中form定义如下: First Initial Plus Last Name : 我的do_authorize如下: "; pri
$.get( 'http://www.ufilme.ro/api/load/maron_online/470', function(data
我有一个下拉列表“磅”、“克”、“千克”和“盎司”。我想要这样一种情况,当我选择 gram 来执行一个函数时,当我在输入字段中输入一个值时,当我选择 pounds 时,我想要另一个函数来执行时我在输入
我有一个 GLSL 着色器,它从输入纹理的 channel 之一(例如 R)读取,然后写入输出纹理中的同一 channel 。该 channel 必须由用户选择。 我现在能想到的就是使用一个 int
我想根据下拉列表中的选定值生成输入文本框。 Options 2 3 4 5 就在这个选择框之后,一些输入字段应该按照选定的数字出现。 最佳答案 我建议您使用响应式(Reac
我是 SQL 新手,我想问一下如何根据首选项和分组选择条目。 +----------+----------+------+ | ENTRY_ID | ROUTE_ID | TYPE | +------
我有以下表结构: CREATE TABLE [dbo].[UTS_USERCLIENT_MAPPING_USER_LIST] ( [MAPPING_ID] [int] IDENTITY(1,1
我在移除不必要的床单时遇到了问题。我查看了不同的论坛并将不同的解决方案混合在一起。 此宏删除工作表(第一张工作表除外)。 Sub wrong() Dim sht As Object Applicati
我是一名优秀的程序员,十分优秀!