gpt4 book ai didi

r - 表格 : How can I measure similarity of sets of dimensions across dates?

转载 作者:行者123 更新时间:2023-12-04 00:53:02 25 4
gpt4 key购买 nike

这有点复杂 - 但我会尽力解释。我有一个数据集,其中包含我每天从特定视频点播界面抓取的数据。每天都会显示大约 120 个标题(12 x 10 的网格)- 数据包括一系列变量:抓取日期、节目标题、节目的垂直/水平位置、类型、概要等。

我想做的一件事是分析日常提供的内容的相似性。我的意思是我想比较给定日期有多少标题出现在前一天(理想情况下以百分比表示)。因此,如果 40 个(共 120 个)标题与前一天相同,则相似度为 30%。

事情是这样的——我知道如何做到这一点(感谢这个网站上的一些好心的陌生人帮助我使用 R 编写了一个脚本)。您可以在此处查看提供更多详细信息的帖子:Calculate similarity within a dataframe across specific rows (R)

但是,此方法会根据每天的标题总数创建相似度分数,而我还希望能够在应用其他过滤器后探索相似度。具体来说,我想将焦点缩小到出现在前四行和前四列中的标题。换句话说:这些职位中有多少与前一天相同?我可以通过修改 R 脚本来完成此操作,但似乎更好的方法是在 Tableau 中执行此操作,这样我就可以“实时”更改这些参数,可以这么说。 IE。如果我想关注前 6 行和前 6 列,我不想重新运行 R 脚本并更新基础数据!

感觉好像我在这里遗漏了一些非常明显的东西——也许这是一个简单的表计算?或者我需要以某种方式告诉 Tableau 如何对数据进行子集化?

希望这一切都是有道理的,但如果没有,我很乐意澄清。另外,我无法为您提供基础数据(出于研究原因!),但如果有帮助,我可以提供示例。

提前致谢:)

最佳答案

您可以两全其美。使用 Tableau 连接到您的数据,根据需要进行过滤,然后让 Tableau 调用 R 脚本来计算相似度并将结果返回到 Tableau 以供显示。

如果这符合您的用例,您需要学习将其付诸实践的机制。在 Tableau 方面,您将使用以单词 SCRIPT 开头的函数来调用您的 R 代码,例如 SCRIPT_REAL() 或 SCRIPT_INT() 等。这些是表计算,因此您需要了解如何使用表计算工作,特别是在分区和寻址方面。这在 Tableau 帮助中进行了描述。您还必须通过在“帮助”->“设置和性能”菜单下管理外部服务,将 Tableau 指向您的 R 代码的主机。

在 R 端,您当然需要编写函数,然后使用函数 RServe() 使其可供 Tableau 访问。 Tableau 将参数向量发送到 R 并期望一个向量作为响应。上面提到的分区和寻址控制了这些向量的大小和顺序。

让机制发挥作用可能有点棘手,但它们确实有效。先练习一些简单的东西。

有关详细信息,请参阅 Tableau 的网站资源。此功能的正式名称是 Tableau“分析扩展”

关于r - 表格 : How can I measure similarity of sets of dimensions across dates?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64936521/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com