gpt4 book ai didi

java - 如何在 Java 中有效地查找两个范围列表中的所有重叠部分

转载 作者:行者123 更新时间:2023-11-30 04:32:14 32 4
gpt4 key购买 nike

我在有效查找两个列表中的所有重叠范围时遇到问题。
这个问题类似于This问题,但输入不同。

我有 2 个输入文件,一个包含许多行范围和数据对,另一个包含用于查找交集的范围列表。

我已经编写了一个文件读取器类,它从数据文件中读取数据,一次返回一个对象,该对象保存范围和数据对的列表,但是当我尝试查找两者的重叠时遇到了麻烦范围列表。

目前我正在做的是暴力破解,将数据列表中的每个范围与交集列表中的每个其他范围进行比较,但由于数据文件非常很大,因此需要很长时间时间。

示例对象:
这是数据列表中的对象:

public DataModel {
private int start; {set; get;}
private int end; {set; get;}
//Other Data
}

范围模型只是成对整数的列表(开始、结束)。

while (fileParser.hasNext()) {
dataList = fileParser.next();
for (DataModel data : dataList)
for (RangeModel range : rangeList)
if(overlaps(data, range))
print(range.getString + " " + data.getString);
}

为清楚起见进行编辑:

DataModel 以不同长度的类似范围的较小数据包形式给出,但它们大多在 20 以下,因此将在同一 RangeModel 和每个新 DataModel 上重复运行比较。 所有数据的总范围约为 20 亿,但这并不重要。感谢您的帮助。

最佳答案

我可以想到不同的优化,但它们取决于您希望在检查后获得什么样的数据。

对数据和范围进行排序并按顺序处理它们可以立即提高性能,因为将一个以 100 开头的范围与另一个以 50 结尾的范围进行测试是没有意义的。

另一个改进是“压缩”范围。如果您有 (1-10)、(10-20)、(20-30) 等范围,那么您可以轻松地将它们替换为单个 (1-30) 范围,并减少测试数量。您可以创建一个适当的 AggregateRange 类来跟踪其组成范围的标识,以防您仍然想知道哪个原始范围导致重叠。

另一个改进是在处理数据列表时巧妙地使用以前的结果。例如:假设您测试数据范围(1-10)并且它恰好不重叠。如果下一个测试数据范围是 (2-8),则您不需要根据范围对其进行测试,因为您之前的结果保证它不会重叠。

此改进背后的基本思想是将任何未经测试的数据范围的开始提前到并包括最后一个非重叠数据范围的结束。如果新的起点超过了自己的终点,则不需要测试,因为它不重叠。这意味着非重叠 (1-20) 应将未经测试的 (10-100) 转换为未经测试的 (20-100)。这实现起来可能比较棘手,所以要小心不要做得太过分。

关于java - 如何在 Java 中有效地查找两个范围列表中的所有重叠部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14367648/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com