- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
概览
我有一个 iOS
应用程序,人们可以在其中通过 tags
进行搜索,其中一些标签是预定义的,一些是用户定义的。
当用户写下他/她想要搜索的标签
时,我想显示一行,显示这些标签
可用的结果数量(参见示例搜索图片)。
注意 #Exercise
或 #Routine
是父级 tag
意味着这个人总是会使用其中之一。
我正在使用 PHP
和 MongoDB
服务器端。我虽然创建了一个文件,其中包含每小时计数的标签,以便所有客户端都可以获取它并最大限度地减少资源消耗。
鉴于被操纵的信息是用户控制的标签
,该列表将随着时间的推移而显着扩展。
挑战
我的第一个想法 是创建一个二维数组
(参见图片)来存储我的所有值。然后将其转换为 JSON,以便将其存储到 MongoDB 中。
但这种方法会让我获取所有标签并将它们加载到内存中以执行任何 +1 或 -1。因此,我认为它可能不是最好的。
所有操作都发生在插入、更新和删除每个元素时。因此会有相当大的 RAM
开销。
我的第二个想法是创建一个文档
,我在其中存储所有使用过的标签
,并每小时进行一次计数查询以生成列表客户使用。
这意味着在每次删除、更新和插入时检查标签是否存在于此文档
上,并根据条件创建或删除或什么也不做。
每小时获取所有标签,生成一个包含所有标签组合的数组。针对所有标签组合查询数据库并计算返回结果的数量并创建文件。
鉴于我使用 MongoDB
而不是 MySQL
,我认为这种方法可能是更好的方法。但我仍然不确定它的性能。
有没有人制作过类似的系统并且可以建议更好的方法?
搜索示例图片
二维数组
最佳答案
使用 mongodb 时要考虑的最重要的事情之一是,在决定数据库设计时,您必须考虑应用程序的访问模式。我们将尝试通过一个示例来解决您的问题,并看看它是如何工作的。
假设您的收藏中包含以下文档,下面让我们看看如何让这种简单的数据格式发挥作用:
> db.performant.find()
{ "_id" : ObjectId("522bf7166094a4e72db22827"), "name" : "abc", "tags" : [ "chest", "bicep", "tricep" ] }
{ "_id" : ObjectId("522bf7406094a4e72db22828"), "name" : "def", "tags" : [ "routine", "trufala", "tricep" ] }
{ "_id" : ObjectId("522bf75f6094a4e72db22829"), "name" : "xyz", "tags" : [ "routine", "myTag", "tricep", "myTag2" ] }
{ "_id" : ObjectId("522bf7876094a4e72db2282a"), "name" : "mno", "tags" : [ "exercise", "myTag", "tricep", "myTag2", "biceps" ] }
首先,您绝对必须在标签上创建索引。 (如果需要,您可以创建复合索引)
> db.performant.ensureIndex({tags:1})
> db.performant.getIndexes()
[
{
"v" : 1,
"key" : {
"_id" : 1
},
"ns" : "test.performant",
"name" : "_id_"
},
{
"v" : 1,
"key" : {
"tags" : 1
},
"ns" : "test.performant",
"name" : "tags_1"
}
]
要从上述集合中查询标签数据,通常会使用 db.performant.find({tags:{$in:["bicep"]}}),但这不是个好主意 。让我告诉你原因:
> db.performant.find({tags:{$in:["bicep","chest","trufala"]}}).explain()
{
"cursor" : "BtreeCursor tags_1 multi",
"isMultiKey" : true,
"n" : 2,
"nscannedObjects" : 3,
"nscanned" : 5,
"nscannedObjectsAllPlans" : 3,
"nscannedAllPlans" : 5,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"tags" : [
[
"bicep",
"bicep"
],
[
"chest",
"chest"
],
[
"trufala",
"trufala"
]
]
},
"server" : "none-6674b8f4f2:27017"
}
您可能已经注意到,此查询正在执行整个集合扫描。这可能会让你想知道,为什么我们添加了那个索引,如果它没有被使用,我也想知道。但不幸的是,这是一个 mongoDB 尚未解决的问题(至少在我看来是这样)
幸运的是,我们可以绕过这个问题并且仍然使用我们在标签集合上创建的索引。方法如下:
> db.performant.find({$or:[{tags:"bicep"},{tags:"chest"},{tags:"trufala"}]}).explain()
{
"clauses" : [
{
"cursor" : "BtreeCursor tags_1",
"isMultiKey" : true,
"n" : 1,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 10,
"indexBounds" : {
"tags" : [
[
"bicep",
"bicep"
]
]
}
},
{
"cursor" : "BtreeCursor tags_1",
"isMultiKey" : true,
"n" : 0,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"tags" : [
[
"chest",
"chest"
]
]
}
},
{
"cursor" : "BtreeCursor tags_1",
"isMultiKey" : true,
"n" : 1,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"tags" : [
[
"trufala",
"trufala"
]
]
}
}
],
"n" : 2,
"nscannedObjects" : 3,
"nscanned" : 3,
"nscannedObjectsAllPlans" : 3,
"nscannedAllPlans" : 3,
"millis" : 10,
"server" : "none-6674b8f4f2:27017"
}
如您所见,n 非常接近 nscanned。扫描了三个记录 1,每个记录对应于“bicep”、“chest”、“trufala”。由于“bicep”和“chest”属于同一个文档,因此只返回1个对应的结果。一般来说,count() 和 find() 都会进行有限的扫描,而且效率很高。此外,您永远不必为用户提供过时的数据。您也可以完全避免运行任何类型的批处理作业!!!
因此,通过使用这种方法,我们可以得出以下结论:如果按n 个标签进行搜索,并且每个标 checkout 现m 次,则扫描的文档总数为n * m。现在考虑到你有大量的标签和大量的文档,并且你通过几个标签进行扫描(这反过来对应于几个文档 - 虽然不是 1:1),结果总是非常快,因为发生 1 个文档扫描每个标签和文档组合。
注意: 这种方法永远无法覆盖索引,因为数组上有一个索引,即“isMultiKey”:true。您可以阅读有关涵盖索引的更多信息 here
局限性:每种方法都有局限性,这个也有!!对结果进行排序会产生极差的性能,因为它将扫描整个集合的次数等于传递给此查询的标记的次数加上它扫描与 $or 的每个参数对应的其他记录。
> db.performant.find({$or:[{tags:"bicep"},{tags:"chest"},{tags:"trufala"}]}).sort({tags:1}).explain()
{
"cursor" : "BtreeCursor tags_1",
"isMultiKey" : true,
"n" : 2,
"nscannedObjects" : 15,
"nscanned" : 15,
"nscannedObjectsAllPlans" : 15,
"nscannedAllPlans" : 15,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"tags" : [
[
{
"$minElement" : 1
},
{
"$maxElement" : 1
}
]
]
},
"server" : "none-6674b8f4f2:27017"
}
在这种情况下,它扫描 15 次,等于 3 次全集合扫描,每次扫描 4 条记录,加上每个参数扫描的 3 条记录,用于 $ 或
最终结论:如果您对未排序的结果没有问题,或者愿意在前端付出额外努力自行对结果进行排序,则使用此方法可以获得非常高效的结果。
关于php - 如何创建一个性能系统来计算大型动态数据集中的标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18611531/
我有这个代码: System.err.print("number of terms = "); System.out.println(allTerms.size()); System.err
我有以下问题:在操作系统是 Linux 的情况下和在操作系统是 MacOs 的情况下,我必须执行不同的操作。 所以我创建了以下 Ant 脚本目标: /u
我正在调用 system("bash ../tools/bashScript\"This is an argument!\"&"),然后我正在调用 close(socketFD) 直接在 system
使用最初生成的随机元素来约束随机数组的连续元素是否有效。 例如:我想生成一组 10 个 addr、size 对来模拟典型的内存分配例程并具有如下类: class abc; rand bit[5:0
我正在创建一个必须使用system(const char*)函数来完成一些“繁重工作”的应用程序,并且我需要能够为用户提供粗略的进度百分比。例如,如果操作系统正在为您移动文件,它会为您提供一个进度条,
我即将编写一些项目经理、开发人员和业务分析师会使用的标准/指南和模板。目标是更好地理解正在开发或已经开发的解决方案。 其中一部分是提供有关记录解决方案的标准/指南。例如。记录解决/满足业务案例/用户需
在开发使用压缩磁盘索引或磁盘文件的应用程序时,其中部分索引或文件被重复访问(为了论证,让我们说一些类似于 Zipfian 分布的东西),我想知道什么时候足够/更好地依赖操作系统级缓存(例如,Debia
我们编写了一个 powershell 脚本,用于处理来自内部系统的图像并将其发送到另一个系统。现在,业务的另一部分希望加入其中,对数据进行自己的处理,并将其推送到另一个系统。打听了一下,公司周围有几个
我正在尝试朗姆酒我的应用程序,但我收到以下错误:System.Web.HttpUnhandledException:引发了“System.Web.HttpUnhandledException”类型的异
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
所以我在其他程序中没有收到此错误,但我在这个程序中收到了它。 这个程序是一个我没有收到错误的示例。 #include int main() { system("pause"); } // en
我在 c# System.URI.FormatExption 中遇到问题 为了清楚起见,我使用的是 Segseuil 的 Matlab 方法,并且它返回一个图片路径 result。我想为其他用户保存此
我正在尝试像这样设置文本框的背景色: txtCompanyName.BackColor = Drawing.Color.WhiteSmoke; 它不喜欢它,因为它要我在前面添加系统,例如: txtCo
请帮助我解决 System.StackOverflowException我想用 .aspx 将记录写入数据库我使用 4 层架构来实现这一切都正常但是当我编译页面然后它显示要插入数据的字段时,当我将数据
我使用了一些通常由系统调用的API。 因此,我将 android:sharedUserId="android.uid.system" 添加到 manifest.xml, 并使用来自 GIT 的 And
我正在尝试创建一个小型应用程序,它需要对/system 文件夹进行读/写访问(它正在尝试删除一个文件,并创建一个新文件来代替它)。我可以使用 adb 毫无问题地重新挂载该文件夹,如果我这样做,我的应用
我想从没有 su 的系统 priv-app 将/system 重新挂载为 RW。如何以编程方式执行此操作?只会用 Runtime.getruntime().exec() 执行一个 shell 命令吗
我正在尝试制作一个带有登录系统的程序我对此很陌生,但我已经连续工作 8 个小时试图解决这个问题。这是我得到的错误代码 + ServerVersion 'con.ServerVersion' threw
当我“构建并运行”Code::Blocks 中的程序时,它运行得非常好!但是当我从“/bin”文件夹手动运行它时,当它试图用 system() 调用“temp.bat”时,它会重置。这是为什么?它没有
我想使用 system/pipe 命令来执行具有特殊字符的命令。下面是示例代码。通过系统/管道执行命令后,它通过改变特殊字符来改变命令。我很惊讶地看到系统命令正在更改作为命令传递的文本。 run(ch
我是一名优秀的程序员,十分优秀!