python - 根据图像调整边界框的大小-6ren

python - 根据图像调整边界框的大小

转载作者：太空宇宙更新时间：2023-11-03 21:13:16

24

4

我正在用 Python 实现对象本地化。我遇到的一个问题是，当我在采取行动时调整可观察区域的大小时，我不知道如何同时更改地面实况框。因此，会发生这种情况:

地面实况框不会调整大小以准确适合平面。因此，我无法正确定位。我当前格式化下一个状态的函数如下:

def next_state(init_input, b, b_prime, g, a):
    """ 
    Returns the observable region of the next state.

    Formats the next state's observable region, defined
    by b_prime, to be of dimension (224, 224, 3). Adding 16
    additional pixels of context around the original bounding box.
    The ground truth box must be reformatted according to the
    new observable region.

    :param init_input:
        The initial input volume of the current episode.

    :param b:
        The current state's bounding box.

    :param b_prime:
        The subsequent state's bounding box.

    :param g:
        The ground truth box of the target object.

    :param a:
        The action taken by the agent at the current step.
    """

    # Determine the pixel coordinates of the observable region for the following state
    context_pixels = 16
    x1 = max(b_prime[0] - context_pixels, 0)
    y1 = max(b_prime[1] - context_pixels, 0)
    x2 = min(b_prime[2] + context_pixels, IMG_SIZE)
    y2 = min(b_prime[3] + context_pixels, IMG_SIZE)

    # Determine observable region
    observable_region = cv2.resize(init_input[y1:y2, x1:x2], (224, 224))

    # Difference between crop region and image dimensions
    x1_diff = x1
    y1_diff = y1
    x2_diff = IMG_SIZE - x2
    y2_diff = IMG_SIZE - y2

    # Resize ground truth box
    g[0] = int(g[0] - 0.5 * x1_diff)  # x1
    g[1] = int(g[1] - 0.5 * y1_diff)  # y1
    g[2] = int(g[2] + 0.5 * x2_diff)  # x2
    g[3] = int(g[3] + 0.5 * y2_diff)  # y2

    return observable_region, g

我似乎无法正确调整尺寸。我关注了this发布以最初调整边界框的大小。然而，该解决方案在这种情况下似乎不起作用。

边界框/真值框的格式为:b = [x1, y1, x2, y2]

init_input 的维度是 (224, 224, 3)。 IMG_SIZE = 224 和 context_pixels = 16

这是一个额外的例子:

看起来 ground truth box 的大小是正确的，但是位置不对。

更新

我已经更新了上面的代码部分。比例因子似乎是解决问题的错误方法。通过仅添加/减去要放大的像素数，我已经接近了很多。我相信现在有一些与插值有关的东西，所以如果有人可以帮助它使其完美，那将是一个巨大的帮助。

新例子:

更新2

A solution已提供。

最佳答案

我的问题已在 this 内解决由名为@lenik 的用户发布。

在将比例因子应用于ground truth box g的像素坐标之前，必须先减去零偏移量，这样x1, y1就变成了0 , 0。这允许缩放正常工作。

因此，变换后任意随机点(x,y)的坐标可以计算为:

x_new = (x - x1) * IMG_SIZE / (x2 - x1)
y_new = (y - y1) * IMG_SIZE / (y2 - y1)

在代码中，关于我的问题，解决方案如下:

def next_state(init_input, b_prime, g):
    """
    Returns the observable region of the next state.

    Formats the next state's observable region, defined
    by b_prime, to be of dimension (224, 224, 3). Adding 16
    additional pixels of context around the original bounding box.
    The ground truth box must be reformatted according to the
    new observable region.

    :param init_input:
        The initial input volume of the current episode.

    :param b_prime:
        The subsequent state's bounding box.

    :param g:
        The ground truth box of the target object.
    """

    # Determine the pixel coordinates of the observable region for the following state
    context_pixels = 16
    x1 = max(b_prime[0] - context_pixels, 0)
    y1 = max(b_prime[1] - context_pixels, 0)
    x2 = min(b_prime[2] + context_pixels, IMG_SIZE)
    y2 = min(b_prime[3] + context_pixels, IMG_SIZE)

    # Determine observable region
    observable_region = cv2.resize(init_input[y1:y2, x1:x2], (224, 224), interpolation=cv2.INTER_AREA)

    # Resize ground truth box 
    g[0] = int((g[0] - x1) * IMG_SIZE / (x2 - x1))  # x1
    g[1] = int((g[1] - y1) * IMG_SIZE / (y2 - y1))  # y1
    g[2] = int((g[2] - x1) * IMG_SIZE / (x2 - x1))  # x2
    g[3] = int((g[3] - y1) * IMG_SIZE / (y2 - y1))  # y2

    return observable_region, g

关于python - 根据图像调整边界框的大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51220865/

24

4

0

文章推荐： c# - Collapsed 事件在 TreeViewItem 的父节点上触发

文章推荐： c# - 无锁线程安全状态同步？

文章推荐： python - Jupyter 笔记本上的 Quandl : LimitExceededError

文章推荐： c# - ASP.NET MVC - C# - 定义用于 Razor View 的键值对

Javascript 调整
我是 Javascript 新手，所以请原谅基本代码。有什么方法可以让我使用用户输入的指定调整来打印代码？ height: width: 最佳答案为按钮
javascript - 调整 A 框架中的屏幕截图大小
我有一个带有 A 框架的场景，我正在使用方法 getCanvas 来获取屏幕截图并将其发送到 PHP。有没有办法调整 getCanvas 图像大小？因为默认的是 4096x2048，我需要它更小。如果
Oracle 调整/分析表
安排自动“分析表”的方法是什么。当大量数据通过插入和删除发生更改时，是否可以请求自动“分析表”？参数化自动分析表过程的方法是什么，即设置何时应该触发的规则。最佳答案您使用的是哪个版本的 Oracl
C - 调整/放大图像
我只是想说，我是 C 语言的新手。好吧，除此之外，我在圣诞假期的任务是编写一个以各种方式操作 PNG 图像的程序。我已经完成了大部分事情，但是在尝试编写放大图像的程序时遇到了问题。我已经尝试过了，并且
postgresql - Postgres 调整
在 Postgres 中编写更快查询的有效方法是什么？请不要包括一般良好的数据库实践(例如使用索引或规范化)。我正在寻找像派生表比子查询工作得更快或使用 python 字符串函数似乎比 pgsql 字
用于对齐页面元素的 Css 调整？
我不知道自己做了什么，但我要么将页眉和导航向右移动，要么将页面的其余部分向左移动。使用 tw Bootstrap 。我想不通。我对它进行了调试并查看了我的 css 编辑，没有看到任何负边距(我怀疑是这
html - 调整/缩放内部容器中的字体
我希望能够增加默认字体大小，但只能在特定的 DIV 内。很明显，这似乎正是 ems 所针对的那种情况。我的问题是我只想增加字体大小，而不影响使用em设置大小的其他内容，例如填充和边距。这可能看起来
algorithm - 感知器算法 - 调整
我正在我的大学上数据挖掘类(class)。我真的不明白这个问题。谁能帮我理解一下？最佳答案重要性权重让您了解在采样时找到特定数据点的频率。您可以使用它来增加训练数据集。例如，如果您只有两个数据点:
C++ 调整/优化
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c - 调整 argVector
我的部分程序如下所示: char *argVector[] = {"./doTasks","0", "1", "3", NULL}; int numChild = 3; int temp; char
c++ - 调整 Qt 窗口大小时出现闪烁的白色区域
我在调整 QWindow 大小时观察到一个奇怪的行为。当我调整窗口大小时使宽度和高度都增加或减少时，窗口不会以白色背景闪烁。但是当我增加宽度同时减小高度(或反之亦然)时，窗口会闪烁并暂时用白色填充新的
调整 ggplot geom_dotplot 的大小
我在使用 ggplot2 创建图形时遇到问题。我正在使用带有中心堆叠的 geom_dotplot 来显示我的数据，这些数据是 4 个类别的离散值。出于审美原因，我想自定义点的位置，这样沿 y 轴减
javascript - 调整 Canvas 大小以适应容器
在尝试让我的 Canvas/Stage 调整大小并使其正确适合父容器时遇到一些问题。我发现了其他类似的帖子，虽然答案确实帮助我获得了新的屏幕尺寸，但它仍然不想适应容器，而是直接进入屏幕的边缘(这在示例
svg - 调整 svg 组的路径
我想将路径大小调整为 20 像素左右。 SVG 的大小应为 500 * 500，现在路径宽度为 297，高度为 180.7。现在我需要这条路径，其宽度为 277，高度为 160.7，在之前的路径中。
javascript - 调整 SVG 的大小围绕其原点旋转
我有一个矩形 svg，可以围绕二维平面拖动，围绕它自己的原点旋转并调整大小。 class SVG extends React.Component { constructor(props) {
python - 调整 MLPRegressor 超参数
我一直在尝试调整 MLP 模型的超参数来解决回归问题，但我总是收到收敛警告。这是我的代码 def mlp_model(X, Y): estimator=MLPRegressor() param_gr
SwiftUI - 调整 ScrollView 滚动指示器插入
我正在创建一个聊天应用程序，我希望 ScrollView 的内容位于输入字段下方(向上滚动时)。我已经将 ScrollView 和输入字段放在 ZStack 中。 ScrollView 上的底部填充使
.NET 垃圾收集 (GC) 调整
我遇到 GC 来不及删除空闲对象的情况。该代码将一个大文档加载到内存中并循环处理它。如果我在此循环中停止(在 Debug模式下)或添加 GC.Collect()，内存使用量将下降到 70 MB 以下。
pdf - 调整 PDF 格式以更快地打印它
我正在使用 iTextSharp 和 PdfSharp 的组合来组装一个大型 PDF 文件，以便打印到 Canon Oce VarioPrint 6000 系列打印机。 PDF 正在替换后记文件。这
sql - 调整 mysql 查询以获得更好的性能
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar

首页

博学

6Ren·AI

商城

python - 根据图像调整边界框的大小

更新

更新2