- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的软件可视化非常的大型数据集,例如数据是如此之大,我无法在任何时候将所有数据存储在 RAM 中,它需要以页面方式加载。我嵌入了 matplotlib
功能,用于在我的应用程序后端显示和操作绘图。
这些数据集包含我用来可视化的三个内部列表:time
、height
和 dataset
。我的程序用 time x height 绘制数据,此外,用户可以选择在图形区域周围绘制形状,这些形状可以提取到整个不同的图中。
困难的部分是,当我想从形状中提取数据时,形状顶点是绘图计算的真实坐标,而不是在我的时间<中四舍五入到最近的点
数组。这是一个在我的程序中限制区域的形状示例
虽然根据matplotlib X1
可能代表坐标(2007-06-12 03:42:20.070901+00:00, 5.2345)
,但最接近的坐标existing time
和 height
可能类似于 (2007-06-12 03:42:20.070801+00:00, 5.219)
,与 matploblib 的坐标只有一点点偏差。
因此给定一些任意值,假设 x1 = 732839.154395
(以数字格式表示日期)和一个具有常量步长的相似值列表:
732839.154392
732839.154392
732839.154393
732839.154393
732839.154394
732839.154394
732839.154395
732839.154396
732839.154396
732839.154397
732839.154397
732839.154398
732839.154398
732839.154399
etc...
找到该点最接近表示的最有效方法是什么?我可以简单地遍历列表并获取具有最小差异的值,但是 time
的大小巨大。因为我知道数组是 1. Sorted 和 2. Increments with a constant step ,我在想这个问题应该能够在 O(1)
时间内解决?是否有解决此类问题的已知算法?或者我只需要设计一些自定义算法,这是我目前的思考过程。
grab first and second element of time
subtract second element of time with first, obtain step
subtract bounding x value with first element of time, obtain difference
divide difference by step, obtain index
move time forward to index
check surrounding elements of index to ensure closest representation
最佳答案
您建议的算法似乎很合理并且可以正常工作。
正如您在评论中所说的那样,问题在于您的时间记录过于粗糙。 (这在记录非同步数据时很常见——即数据生成时钟(例如帧速率)与计算机不同步)。
解决此问题的简单方法是读取间隔较长时间的两个点,例如,读取第一个时间值,然后读取第 1000 个时间值。然后在你的计算中一切都保持不变,但通过减去然后除以 1000 得到你的时间步
这是一个使数据与您的相似的测试:
import matplotlib.pyplot as plt
start = 97523.29783
increment = .000378912098
target = 97585.23452
# build a timeline
times = []
time = start
actual_index = None
for i in range(1000000):
trunc = float(str(time)[:10]) # truncate the time value
times.append(trunc)
if actual_index is None and time>target:
actual_index = i
time = time + increment
# now test
intervals = [1, 2, 5, 10, 100, 1000, 10000]
for i in intervals:
dt = (times[i] - times[0])/i
index = int((target-start)/dt)
print " %6i %8i %8i %.10f" % (i, actual_index, index, dt)
结果:
span actual guess est dt (actual=.000378912098)
1 163460 154841 0.0004000000
2 163460 176961 0.0003500000
5 163460 162991 0.0003800000
10 163460 162991 0.0003800000
100 163460 163421 0.0003790000
1000 163460 163464 0.0003789000
10000 163460 163460 0.0003789100
也就是说,随着采样点之间的空间越来越大,时间间隔估计越来越准确(与程序中的 increment
比较)并且估计的索引(第 3 列)越来越接近实际索引(第二列)。请注意,dt
估计的准确性基本上与跨度中的位数成正比。你能做的最好的事情就是在起点和终点使用时间,但从你的问题陈述来看,这似乎很困难;但如果不是,它会给出最准确的时间间隔估计。请注意,在这里,为了清楚起见,我通过使我的时间间隔记录非常当然来夸大准确性的缺乏,但一般来说,跨度中的每个 10 的幂都会增加相同数量的准确性。
作为最后一点的示例,如果我通过将路线更改为 trunc = float(str(time)[:12])
来减少时间值的粗略性,我得到:
span actual guess est dt (actual=.000378912098)
1 163460 163853 0.0003780000
10 163460 163464 0.0003789000
100 163460 163460 0.0003789100
1000 163460 163459 0.0003789120
10000 163460 163459 0.0003789121
因此,如果如您所说,使用 1 的跨度可以让您非常接近,那么使用 100 或 1000 的跨度应该绰绰有余。
总的来说,这在思想上与线性“插值搜索”非常相似。它只是更容易实现,因为它只是根据插值进行一次猜测,所以它只需要一行代码:int((target-start)*i/(times[i] - times[0 ]))
关于python - 我可以使用具有已知步骤的排序数组来制作 O(1) 搜索算法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31431866/
我在我的应用程序中使用 Hibernate Search。其中一个子集合被映射为 IndexedEmbedded。子对象有两个字段,一个是 id,另一个是日期(使用日期分辨率到毫秒)。当我搜索 id=
The App Engine Search API有一个 GeoPoint 字段。可以用它来进行半径搜索吗?例如,给定一个 GeoPoint,查找位于特定半径内的所有文档。 截至目前,它看起来像 Ge
客户对我正在做的员工管理项目提出了这个新要求,以允许他们的用户进行自定义 bool 搜索。 基本上允许他们使用:AND、OR、NOT、括号和引号。 实现它的最佳方法是什么?我检查了 mysql,它们使
很想知道哪个更快 - 如果我有一个包含 25000 个键值对的数组和一个包含相同信息的 MySQL 数据库,搜索哪个会更快? 非常感谢大家! 最佳答案 回答这个问题的最好方法是执行基准测试。 关于ph
我喜欢 smartcase,也喜欢 * 和 # 搜索命令。但我更希望 * 和 # 搜索命令区分大小写,而/和 ?搜索命令遵循 smartcase 启发式。 是否有隐藏在某个地方我还没有找到的设置?我宁
我有以下 Marklogic 查询,当在查询控制台中运行时,它允许我检索具有管理员权限的系统用户: xquery version "1.0-ml"; import schema namespace b
我希望当您搜索例如“A”时,所有以“A”开头的全名都会出现。因此,如果名为“Andreas blabla”的用户将显示 我现在有这个: $query = "SELECT full_name, id,
我想在我的网站上添加对人名的搜索。好友列表已经显示在页面上。 我喜欢 Facebook 这样做的方式,您开始输入姓名,Facebook 只会显示与查询匹配的好友。 http://cl.ly/2t2V0
您好,我在我的网站上进行搜索时遇到此错误。 Fatal error: Uncaught Error: Call to undefined function mysql_connect() in /ho
声明( 叠甲 ):鄙人水平有限,本文为作者的学习总结,仅供参考。 1. 搜索介绍 搜索算法包括深度优先搜索(DFS)和广度优先搜索(BFS)这两种,从起点开始,逐渐扩大
我正在为用户列表使用 FuturBuilder。我通过 futur: fetchpost() 通过 API 获取用户。在专栏的开头,我实现了一个搜索栏。那么我该如何实现我的搜索栏正在搜索呢? Cont
我正在使用 MVC5,我想搜索结果并停留在同一页面,这是我在 Controller (LiaisonsProjetsPPController) 中执行搜索操作的方法: public ActionRes
Azure 搜索中的两种方法 Upload 与 MergeOrUpload 之间有什么区别。 他们都做完全相同的事情。即,如果文档不存在,它们都会上传文档;如果文档已经存在,则替换该文档。 由于这两种
实际上,声音匹配/搜索的当前状态是什么?我目前正在远程参与规划一个 Web 应用程序,该应用程序将包含和公开记录的短音频剪辑(最多 3-5 秒,人名)的数据库。已经提出了一个问题,是否可以实现基于用户
在商业应用程序中,具有数百个面并不罕见。当然,并非所有产品都带有所有这些标记。 但是在搜索时,我需要添加一个方面查询字符串参数,其中列出了我想要返回的所有方面。由于我事先不知道相关列表,因此我必须在查
当我使用nvcc 5.0编译.cu文件时,编译器会为我提供以下信息。 /usr/bin/ld: skipping incompatible /usr/local/cuda-5.0/lib/libcud
我正在使用基于丰富的 Lucene 查询解析器语法的 Azure 搜索。我将“~1”定义为距离符号的附加参数)。但我面临的问题是,即使存在完全匹配,实体也没有排序。 (例如,“blue~1”将返回“b
我目前有 3 个类,一个包含 GUI 的主类,我在其中调用此方法,一个包含数据的客户类,以及一个从客户类收集数据并将其放入数组列表的 customerList 类,以及还包含搜索数组列表方法。 我正在
假设我有多个 6 字符的字母数字字符串。 abc123、abc231、abc456、cba123、bac231 和 bac123 。 基本上我想要一个可以搜索和列出所有 abc 实例的选择语句。 我只
我有这个表 "Table"内容: +--------+ | Serial | +--------+ | d100m | <- expected result | D100M | <- expect
我是一名优秀的程序员,十分优秀!