- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我有一个用例,我需要计算很多集合之间的相似性以创建一个简单的推荐引擎。我正在查看 Jaccard 系数和其他相似系数公式,但它们之间有一个共同点:集合中的项目不能重复(如果我在这里错了请纠正我)。
我用 PHP 编写了自己的函数来执行自定义哈希交集,其逻辑是:
arr1
:一个数组,其键是项目的id,值是它们对应的数量。这代表用户的愿望 list 。arr2
:与 arr1
相同,但它代表另一个用户的库存。我需要一种非常快速的方法来对集合进行求交,但通常的相似系数公式涉及集合的求交和并集,当将一个集合与 200k 其他集合进行比较时,这可能没有我想要的那么快。这是我目前所处的位置:
function my_similarity_coefficient ($arr1, $arr2) {
$matches = 0;
$total = 0;
if (count($arr2) == 0)
return 0;
foreach ($arr1 as $id => $qty) {
$total += $qty;
if (!array_key_exists($id, $arr2))
continue;
$matches += min($qty, $arr2[$id]); // do not match more than what user wants
}
return $matches / $total;
}
我尝试在 PHP 中将两个红色散列相交。大小分别为 arr1[67]
和 arr2[231]
。该系数是在出色的 61.98 微秒(最坏情况下高达 266.075 微秒)下计算得出的。如果我尝试将数据从 Redis 获取到 PHP,这个数字会膨胀到 905.037µsec-3337.86µsec。
我想避免将数据从 redis 传输到 PHP 的瓶颈,所以我想知道是否可以在 lua(或者甚至是 c++)中对这个自定义交集进行编程,如果可能的话,它不会受到影响吗来自相同的瓶颈,因为它也从 pointA 获取它到 pointB,或者它不会遇到获取瓶颈,因为数据已经在它的本地了吗?
我不熟悉 lua,但我不想被灌输精确的代码。由于网上关于lua的资源与我真正想要实现的相关的很少,所以我想先在这里挑几个脑筋,同时搜索。
最佳答案
让我们看看。首先,这是直接翻译成 Lua 的 PHP 代码。我在这里保留了相同的变量名,但是您在 PHP 中称为“Array”的在 Lua 中称为“Table”。
local my_similarity_coefficient = function(arr1, arr2)
local matches = 0
local total = 0
if next(arr2) == nil then
return 0
end
for id, qty in pairs(arr1) do
total = total + qty
if arr2[id] then
matches = matches + math.min(qty, arr2[id])
end
end
return matches / total
end
请注意,如果 arr1
为空,此代码可以除以零,但您的也可以。
让我们试试看:
local arr1 = {
a = 3,
b = 5,
c = 8,
}
local arr2 = {
a = 2,
c = 10,
d = 7,
e = 21,
}
print(my_similarity_coefficient(arr1, arr2)) -- 0.625
现在让我们使用 Redis。首先,让我们创建测试数据。
redis 127.0.0.1:6379> hmset arr1 a 3 b 5 c 8
OK
redis 127.0.0.1:6379> hmset arr2 a 2 c 10 d 7 e 21
OK
这个脚本做你想做的,不是以最有效的方式(对 redis.call
的调用可能更少)而是以一种简单的方式,所以你可以理解它并在需要时优化它:
local k1, k2 = KEYS[1], KEYS[2]
local matches, total = 0, 0
if not redis.call("exists", k2) then return 0 end
local qty, qty2
for _, id in ipairs(redis.call("hkeys", k1)) do
qty = tonumber(redis.call("hget", k1, id))
total = total + qty
qty2 = tonumber(redis.call("hget", k2, id) or 0)
matches = matches + math.min(qty, qty2)
end
return tostring(matches / total)
我们称它为:
$ redis-cli eval "$(cat the_script.lua)" 2 arr1 arr2
"0.625"
成功!
需要注意的重点是类型转换:值(数量)使用 tonumber
转换为整数(Redis 返回字符串),我们将结果转换为字符串,因为如果我们返回一个 float Redis 会将其截断为整数(此处为 0)。
编辑 - 好的,谈论优化而不是说如何不好,所以这是一个简单的:
local k1, k2 = KEYS[1], KEYS[2]
local matches, total = 0, 0
if not redis.call("exists", k2) then return 0 end
local t1 = redis.call("hgetall", k1)
local id, qty, qty2
for i=1,#t1,2 do
id, qty = t1[i], tonumber(t1[i+1])
total = total + qty
qty2 = tonumber(redis.call("hget", k2, id) or 0)
matches = matches + math.min(qty, qty2)
end
return tostring(matches / total)
关于lua - redis + lua 可能有哈希交集吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19801923/
这很可能是我的语法错误,因为我对在 C++ 中使用多个文件和结构(特别是将结构传递给函数)还很陌生。这是三个文件: 主要.cpp: #include #include #include #inc
我有 TypeScript NestJS 项目。 我需要验证传入的 DTO 到我的 API。它可以被描述为“创建项目”,其中我们有建筑类型(房屋、公寓、花园),并根据该类型我们需要定义: 房屋:楼层包
是否可以从可用于泛型参数的可能类型集中排除特定类型?如果是如何。 例如 Foo() : where T != bool 将意味着除了类型 bool 之外的任何类型。 编辑 为什么? 以下代码是我尝试强
我的 WebGL 体积光线转换应用程序即将完成。但是我发现了一个问题。我必须通过 2D 纹理模拟 3D 纹理。这不是问题。我正在用小切片创建一个巨大的纹理。巨大纹理的尺寸约为 4096x4096 像素
我正在处理的网页上显示了一个返回顶部按钮。当您向下滚动时,有时单击它时,它会跳到顶部,然后跳回您在页面上的位置,然后像预期的那样平滑滚动到顶部。请记住,它并不总是这样做。这只是一个滞后或故障问题还是我
我对此还很陌生,所以请耐心等待。 我有一个类,它具有三个属性:几个整数和一个用户定义对象的集合。 public class Response { public int num1 { get;
我正在制作一款平台游戏,让玩家每 30 毫秒跳跃一次,并向上添加少量的力。我想我应该使用多线程,因为我之前已经做过一些,而且看起来很简单。无论如何,我尝试了这个: public void jump()
是否可以从可能的类型集中排除特定类型,这些类型可以在泛型参数中使用?如果是这样的话。 例如 Foo() : where T != bool 表示除 bool 类型之外的任何类型。 编辑 为什么? 以下
我正在尝试在单个查询中实现内部和外部联接,我不确定我的做法是正确还是错误,因为我不太擅长查询。 就这样吧。 我有以下表格。 hrs_residentials hrs_residential_utili
关于 my website ,有一段代码可以向页面添加几个元素。这段代码不是我可以编辑的东西,而且我对它放置这些元素的位置不满意,因为它弄乱了我的一些布局。所以我想出了一个小的 jQuery 来将它们
一位客户希望我创建一个数据集,如下所示。我不知道这是否可能或合乎逻辑。 我有表parent: id name ------- ------- 1 parent1 2
这可能吗?google 好像没有这方面的资料.. 这样,如果用户在另一个网站上播放视频或歌曲,我的音量就会自动减小 最佳答案 不,这是不可能的。 如果可能的话,它必须是特定于浏览器的,但我不认为这种情
所以我正在尝试制作响应式页面。问题是为什么它归结为移动数据需要位于列表中。 我会用一些示例代码来解释 所以这可能是桌面上的输出 option1
当您将鼠标悬停在a 元素 上时,是否可以删除url? 这就是我的意思: 最佳答案 一种选择是使用一些 JavaScript。 删除 href=来自 的属性标签,取而代之的是 onclick=...
我已经考虑了几个小时,但我无法取得太大进展。它是这样的: You have an array of size n and q queries. Each query is of the form (l
我一直在尝试编写一个脚本来强化 android。我没有成功! 我正在通过模拟器运行一个 AVD,并且已经用我加载的 android shell 和 bash shell 试过了。正如您将在下面看到的那
Private Sub Workbook_Open() Dim WBname As String WBname = ThisWorkbook.name If Not InStr(WBname, "te
Spark 2.0.0-预览版 我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它,因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[Strin
我正在尝试从此link中提取摘要。但是,我无法仅提取摘要的内容。到目前为止,这是我完成的工作: url <- "http://www.scielo.br/scielo.php?script=sci_a
我的主页中有一个iframe。 iframe页面中有一个modalpopup。因此,当显示modalpopup时,modalpopup的父级是iframe主体和主页父级主体。因此,覆盖层仅覆盖ifra
我是一名优秀的程序员,十分优秀!