gpt4 book ai didi

Android:在屏幕上定位文字。 Google ML Kit 边界框有点偏离

转载 作者:行者123 更新时间:2023-12-04 15:03:09 26 4
gpt4 key购买 nike

我试图在手机屏幕上找到特定的词,然后在它们周围显示一个边界框(如果存在)。我遵循以下步骤:

  1. 捕获整个屏幕内容(使用MediaProjection API)。
  2. 将此屏幕截图传递给 Google ML Kit 中的 TextRecognizer 对象
  3. 检查检测到的单词,如果匹配则使用 ML Kit 返回的 Rect 在屏幕上绘制。

几乎有效,这是检测结果的屏幕截图,并在记事本应用程序上突出显示了单词hello:

screenshot

如您所见,hello 上的半透明黄色框不是很明显。

这里是相关的代码示例。将屏幕截图位图传递给 ML Kit:

InputImage image = InputImage.fromBitmap(screenshotBitmap, 0);
//I checked: image, screen, and overlay view dimensions are exactly the same.
TextRecognizer recognizer = TextRecognition.getClient();
recognizer.process(image)
.addOnSuccessListener(this::processText);

获取识别词的processText方法:

 for (Text.Element element : getElements()) {
String elementText = element.getText();
Rect bounds = element.getBoundingBox(); //Getting the bounding box
if (elementText.equalsIgnoreCase("hello")) { //hello is hardcoded for now
addHighlightCard(bounds.left, bounds.top, bounds.width(), bounds.height());
}
}

最后,addHighlightCard,它创建并定位您在屏幕截图上看到的 View 。它使用带有 RelativeLayout 的全屏覆盖,因为这种布局允许我指定 subview 的确切位置和宽度。

public void addHighlightCard(int x, int y, int width, int height) {
View highlightCard = inflater.inflate(R.layout.highlight_card, overlayRoot, false);
RelativeLayout.LayoutParams params = new RelativeLayout.LayoutParams(width, height);
params.leftMargin = x;
params.topMargin = y;
highlightCard.setLayoutParams(params);
overlayRoot.addView(highlightCard, params);
}

如您所见,没有进行任何缩放,我捕获了整个屏幕,并且我使用了一个填满整个屏幕(甚至是工具栏)的布局。然后,我认为 ML Kit 返回的坐标应该可以直接用于绘制到屏幕上。但显然我错了,图像似乎在某处缩小了,但我不知道在哪里。

解决方案:事实证明,Media Projection API 虚拟显示器的尺寸不正确导致边界框未对齐。为了避免让这个问题变得更长,我将在此处发布指向 GitHub 存储库的链接,您可以在其中找到一个示例应用程序,该应用程序展示了使用 Media Projection API 并在截图。

示例应用:test-text-recognition

最佳答案

分析

我发现您的代码有 4 个潜在问题。

屏幕坐标的使用

当您在此处创建亮点卡片时:

public void addHighlightCard(int x, int y, int width, int height) {
...
params.leftMargin = x;
params.topMargin = y;
...
}

您指定绝对坐标(屏幕坐标)xy 而不是相对于您的 RelativeLayout 的坐标,这是错误的,因为 RelativeLayout 也有一些关于设备屏幕的偏移量。

要分配正确的坐标,请先为您的RelativeLayout 计算屏幕坐标,然后根据这些坐标调整xy。例如:

public void addHighlightCard(int x, int y, int width, int height) {
...
int[] screenCoordinates = new int[2];
overlayRoot.getLocationOnScreen(screenCoordinates);
int xOffset = screenCoordinates[0];
int yOffset = screenCoordinates[1];

params.leftMargin = x - xOffset;
params.topMargin = y - yOffset;
...
}

但是,如果您的根 View 占据了整个屏幕,那应该不是问题。

RelativeLayout的使用

我认为这可能是个问题,因为如果您想在另一个 FrameLayout 之上添加一个新的 View,则应该改用它。但是,我不能确定这是否是一个问题,因为我没有看到完整的代码。

使用 MediaProjection 进行屏幕捕获

您没有向我们展示您是如何使用 MediaProjection 做到这一点的,因此这也可能是一个问题。我使用了一种不同的方式来捕获您可以在下面看到的屏幕。

高亮文本

您正在从 LayoutInflater 膨胀一个 View 以突出显示找到的文本。为了测试,我通过组合 ShapeDrawableView 做了一些不同的事情,比如:

...
ShapeDrawable drawable = new ShapeDrawable();
drawable.getPaint().setColor(Color.YELLOW);
drawable.getPaint().setStyle(Paint.Style.STROKE);
drawable.getPaint().setStrokeWidth(5f);
View shapeView = new View(decorView.getContext());
shapeView.setBackground(drawable);
...

下面将提供完整的代码。

解决方案

既然您提到您的 RelativeLayout 占据了整个屏幕,我决定创建一个示例项目来证明与您的项目类似的项目运行良好。

下面是解释和相关代码。

build.gradle

plugins {
id 'com.android.application'
}

android {
compileSdkVersion 30
buildToolsVersion "30.0.2"

defaultConfig {
applicationId "com.example.myapplication"
minSdkVersion 24
targetSdkVersion 30
versionCode 1
versionName "1.0"

testInstrumentationRunner "androidx.test.runner.AndroidJUnitRunner"
}

buildTypes {
release {
minifyEnabled false
proguardFiles getDefaultProguardFile('proguard-android-optimize.txt'), 'proguard-rules.pro'
}
}
compileOptions {
sourceCompatibility JavaVersion.VERSION_1_8
targetCompatibility JavaVersion.VERSION_1_8
}
}

dependencies {

implementation 'androidx.appcompat:appcompat:1.2.0'
implementation 'com.google.android.material:material:1.3.0'
implementation 'com.google.android.gms:play-services-mlkit-text-recognition:16.1.3'
testImplementation 'junit:junit:4.+'
androidTestImplementation 'androidx.test.ext:junit:1.1.2'
androidTestImplementation 'androidx.test.espresso:espresso-core:3.3.0'
}

主 Activity .java

在这里,为了截图,我使用了以下代码:

                Bitmap bitmap = Bitmap.createBitmap(decorView.getWidth(),
decorView.getHeight(), Bitmap.Config.ARGB_8888);
Canvas canvas = new Canvas(bitmap);
decorView.draw(canvas);
InputImage image = InputImage.fromBitmap(bitmap, 0);

我在 OnGlobalLayoutListener 中执行此操作以确保装饰 View 具有适当的宽度和高度。好的,该类的完整代码如下:

public class MainActivity extends AppCompatActivity {
@Override
protected void onCreate(@Nullable Bundle savedInstanceState) {
super.onCreate(savedInstanceState);

setContentView(R.layout.activity_main);

RecyclerView recyclerView = findViewById(R.id.recycler_view);
recyclerView.setAdapter(new RecyclerViewAdapter(this));
recyclerView.setLayoutManager(new LinearLayoutManager(this));

View decorView = getWindow().getDecorView();
decorView.getViewTreeObserver().addOnGlobalLayoutListener(new ViewTreeObserver.OnGlobalLayoutListener() {
@Override
public void onGlobalLayout() {
decorView.getViewTreeObserver().removeOnGlobalLayoutListener(this);

// take a screenshot of your screen
Bitmap bitmap = Bitmap.createBitmap(decorView.getWidth(),
decorView.getHeight(), Bitmap.Config.ARGB_8888);
Canvas canvas = new Canvas(bitmap);
decorView.draw(canvas);
InputImage image = InputImage.fromBitmap(bitmap, 0);

TextRecognizer recognizer = TextRecognition.getClient();
recognizer.process(image).addOnSuccessListener(new OnSuccessListener<Text>() {
@Override
public void onSuccess(Text text) {
for (Text.TextBlock textBlock : text.getTextBlocks()) {
if ("hello".equalsIgnoreCase(textBlock.getText())) {
Rect box = textBlock.getBoundingBox();
int left = box.left;
int top = box.top;
int right = box.right;
int bottom = box.bottom;

ShapeDrawable drawable = new ShapeDrawable();
drawable.getPaint().setColor(Color.YELLOW);
drawable.getPaint().setStyle(Paint.Style.STROKE);
drawable.getPaint().setStrokeWidth(5f);
View shapeView = new View(decorView.getContext());
shapeView.setBackground(drawable);

FrameLayout rootView = findViewById(R.id.root_view);
int[] location = new int[2];
rootView.getLocationOnScreen(location);

FrameLayout.LayoutParams params = new FrameLayout.LayoutParams(right - left,
bottom - top);
params.setMargins(left - location[0],
top - location[1],
right - location[0],
bottom - location[1]);

rootView.addView(shapeView, params);
}
}
}
});
}
});
}

private static class RecyclerViewAdapter extends RecyclerView.Adapter<RecyclerViewAdapter.RecyclerViewHolder> {
private final Context context;
private final String[] elements = new String[] {"Hello", "Hello", "Bye", "Hello", "Hi there", "Hello"};

private RecyclerViewAdapter(Context context) {
this.context = context;
}

@NonNull
@Override
public RecyclerViewHolder onCreateViewHolder(@NonNull ViewGroup parent, int viewType) {
View item = LayoutInflater.from(context).
inflate(R.layout.list_item, parent, false);
return new RecyclerViewHolder(item);
}

@Override
public void onBindViewHolder(@NonNull RecyclerViewHolder holder, int position) {
holder.textView.setText(elements[position]);
}

@Override
public int getItemCount() {
return elements.length;
}

public static class RecyclerViewHolder extends RecyclerView.ViewHolder {
private final TextView textView;

public RecyclerViewHolder(@NonNull View itemView) {
super(itemView);

this.textView = itemView.findViewById(R.id.element_view);
}
}
}
}

activity_main.xml

<?xml version="1.0" encoding="utf-8"?>
<FrameLayout xmlns:android="http://schemas.android.com/apk/res/android"
android:id="@+id/root_view"
android:layout_width="match_parent"
android:layout_height="match_parent">

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
android:layout_width="match_parent"
android:layout_height="match_parent"
android:paddingStart="30dp"
android:orientation="vertical">

<androidx.recyclerview.widget.RecyclerView
android:id="@+id/recycler_view"
android:layout_width="match_parent"
android:layout_height="match_parent"
android:scrollbars="vertical" />

</LinearLayout>
</FrameLayout>

如您所见,我使用 FrameLayout 作为 Root View 。

list_item.xml

<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
android:layout_width="match_parent"
android:layout_height="wrap_content"
android:background="?android:attr/selectableItemBackground"
android:orientation="vertical">

<TextView
android:id="@+id/element_view"
android:layout_width="match_parent"
android:layout_height="wrap_content"
android:paddingTop="16dp"
android:paddingBottom="8dp"
android:fontFamily="google-sans-medium"/>

<View
android:layout_width="match_parent"
android:layout_height="1dp"
android:background="#000"/>

</LinearLayout>

布局没有什么特别之处 - 只是 RecyclerView 的简单布局。

结果

所有 4 个“Hello”结果都以黄色突出显示。

enter image description here

更新

如果您不是从 Activity 获取显示大小,请确保您使用正确的方法获取显示大小(在您的 GitHub 项目中,您是从 Service 获取它>) 因为你需要真实的显示尺寸,而不是其他东西。因此,请按以下方式操作:

        // get width and height
WindowManager wm = (WindowManager) getApplicationContext().getSystemService(Context.WINDOW_SERVICE);
Display display = wm.getDefaultDisplay();
Point size = new Point();
display.getRealSize(size);
mWidth = size.x;
mHeight = size.y;

因此,在您的示例中,您必须将方法更改为:

    private void createVirtualDisplay() {
// get width and height
WindowManager wm = (WindowManager) getApplicationContext().getSystemService(Context.WINDOW_SERVICE);
Display display = wm.getDefaultDisplay();
Point size = new Point();
display.getRealSize(size);
mWidth = size.x;
mHeight = size.y;
...
}

就是这样。

关于Android:在屏幕上定位文字。 Google ML Kit 边界框有点偏离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66624836/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com