- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您好,我创建了一种从 Movielens 数据集中推荐电影的方法。我的问题是如何根据用户观看的电影将数据库中的表划分为折叠以应用交叉验证。这个例子详细解释了我正在寻找的内容。假设有人看了 12 部电影,我将应用 3 倍交叉验证,所以我需要 1 组作为测试,3 组作为训练,其中 12/3 = 4 是组数。为了评估我的推荐方法,我需要将测试集预测与其他集进行一一比较,因此我需要检索 4 组不包含重复电影的用户电影。有谁知道如何将以下示例的数据检索到 mysql 数据库中的集合中?
ID| User_ID| Movie_ID| Movie_Title| Movie_Genre| Rating|
107747| 3| 480| Jurassic Park| Adventure| 4|
107748| 3| 590| Dances with Wolves| Drama, Western| 4|
107749| 3| 648| Mission: Impossible| Action| 3|
107750| 3| 1198| Raiders of the Lost Ark| Adventure| 5|
107751| 3| 1259| Stand by Me| Drama| 5|
107752| 3| 1266| Unforgiven| Western| 5|
107753| 3| 1270| Back to the Future| Sci-Fi| 3|
107754| 3| 1291| Indiana Jones and the Last Crusade| Action| 4|
107755| 3| 1378| Young Guns| Western| 5|
107756| 3| 1379| Young Guns II| Western| 4|
107757| 3| 1394| Raising Arizona| Comedy| 4|
107758| 3| 1431| Beverly Hills Ninja| Comedy| 3|
因此,我尝试将这 12 部电影检索为 3 组,其中每组包含 4 部电影,其中这些组包含独特的电影,换句话说,电影不应存在于多个组中。我正在使用 Java 从数据库中检索这些数据。非常感谢任何对此的帮助。
最佳答案
您可以使用 MovieLens 100k 数据集测试您的方法,该数据集已为您完成交叉折叠。请访问 grouplens.org/datasets/movielens/了解文章和数据。如果您希望有一个框架为您做这件事,您也可以下载 LensKit —— 然后您可以用 Java 编写推荐算法。
编辑:基于 Michael Ekstrand 出色的协同过滤解释 ( http://md.ekstrandom.net/research/pubs/cf-survey/cf-survey.pdf ),您可以使用以下方法:
由于您想要 3 倍交叉验证,因此您将依次遍历每个用户并将其评分(随机或其他方式)分为 3 个部分。我们将它们称为 A、B 和 C。
现在让我们尝试求解 A。因此,将所有用户的 B 和 C 评级连接到训练集中。在此 BC 数据集上训练您的模型。
协作过滤需要一个模型(您刚刚构建的)、用户的评分历史记录以及该历史记录的一些隐藏部分,我们将尝试预测这些隐藏部分以衡量我们的算法有多好。因此,对于每个用户,您都有 A 部分,而您的模型对此一无所知。将该部分分成两部分:A1 和 A2。首先,使用 A1 作为已知的用户历史记录,即方法的输入。如果您尝试推荐前 N 个列表,请制作该列表,然后查看这 N 个项目中有多少实际出现在集合 A2 中。如果您尝试预测评分,请检查 A2 组并预测所有项目评分,然后“发现”真实评分并测量您的误差。
重复使用 A2 作为您的已知用户历史记录。
重复,但在 AC 上进行训练并在 B1 和 B2 上进行测试。然后再次重复AB 上的训练和C1 和C2 上的测试。记住所有结果并将它们平均。这就是你的表现。
让我们回到第 1 点。我认为从数据库中为用户选择所有电影并将它们放入 Java 集合中可能是最简单的方法。然后,如果您想使用随机顺序而不是基于时间的顺序进行训练,则可以使用 Collections.shuffle() 来排列列表。根据列表的大小,一次获取列表的三分之一。
我不明白你关于电影只存在于一组的观点。用户只能对一部电影有一个评级(或者至少,您几乎总是只关心最新的评级)。因此,默认情况下,对用户的评级列表进行分区不会包括从一个分区到另一个分区的重复项。但是,例如,当你将所有用户的 Part As 放在一起时,当然会有很多热门电影的评分。
关于java - 将mysql分成几组进行交叉验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31595079/
简单问题:如何指定分割窗口中的字符数? C-x-3 将我的窗口均匀分割为两个窗口,但随后的分割会将其中一个窗口分成两半。我想要 3 个大小相同的 window 。文档说我应该能够指定左缓冲区的字符数作
我需要一个程序,可以接受用户输入的数据数量和长度(英尺和英寸或仅英寸),并将这些项目分为 40 组。 我最初尝试在 Excel 中完成此任务,但我不确定是否可以完成。 var cutList = [
这个问题已经有答案了: Why does the division of two integers return 0.0 in Java? [duplicate] (6 个回答) 已关闭 5 年前。
我想知道在使用布局 (MigLayout) 时我可以分成 2 行而不是两列吗? panel.add(fname,"split 2"); panel.add(Fname,"wrap, pushx, gr
我几乎有一个像下面这样的代码,我正在尝试添加 每 6 个结果之后。 echo ""; $query="SELECT * WHERE id='$id' ORDER BY date ASC"; $resu
我在 android 2.2 中创建了一个选项卡 fragment ,带有 android 兼容性支持库 ,现在在我的应用程序中我几乎没有 Activity ,其中一些是扩展 Activity 类和其
这是我的 question 的扩展. 为了让它更简单让我们假设我有一个 pandas 数据框,如下所示。 df = pd.DataFrame([[1.1, 1.1, 2.5, 2.6, 2.5, 3.
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
我一直相信java使用UTF-16在内部对其字符进行编码。它使用 u+xxxx 的事实证实了这一点。表示字符代码的格式以及它使用 16 位存储 char 的事实。 . 但有时UTF-16需要超过 2
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
为了重新编码 malloc 函数,我执行了 sbrk(stack) 其中: void *malloc(size_t size) { stack = 0; while (stack start
寻找一个 css 或 jquery 解决方案来将这些动态加载的表分解为每行最多 6 个,创建表的脚本将它们全部内联,有时一行中显示多达 32 个 td.tables。我怎样才能在最多只有 6 个内联显
我可以请求帮助将 UTF-16 数据流拆分成 block 吗? 不幸的是,很难找到字母边界。 任何帮助表示赞赏,已经花了几个晚上在这上面,很想了解这个问题。 运行良好的 Java 版本(是否有任何自动
我正在使用 Contact Forms 7在 wordpress 安装中创建联系表单。创建的表单位于 here Contact Form 扩展是免费、灵活且易于使用的。但问题是,无论一个表单包含多少个
我想将一个字符串拆分为一系列子字符串以适合我的数据库,假设我的数据库 varchar 大小为 50。如果将原始字符串切割为最多 50 个字符,那么我需要在该字符串中包含尾随 (逗号)。例如, 我的原始
我必须用 css 做一个足球队盾牌,我的想法是用球队的颜色做一个圆圈,我已经用 1 种或 2 种颜色为盾牌做了圆圈,但我在使用 3 种颜色的盾牌时遇到了麻烦 我将其用于 2 种颜色的防护罩 .equi
如果我有 1000 美元(可变),我想把这笔钱分给 20(可变)人,但不是平均地给每个人,我想给第一个人更多,然后第二人称等 所以第 20 个人得到的最少,第 5 个人得到的第 5 多。 我将如何实现
我需要一种算法,将数字 n 分成 k 部分,并增加限制,即每个分区元素必须在 a 0 and k > 0: for x in range(a, b+1): fo
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Swing: How do I set a component height to the containe
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 9
我是一名优秀的程序员,十分优秀!