gpt4 book ai didi

ios - 扫描文档 - 使用 OpenCV + iOS 时文本和背景清晰度不佳

转载 作者:技术小花猫 更新时间:2023-10-29 10:26:41 24 4
gpt4 key购买 nike

扫描文档后,我正在使用 OpenCV 库应用图像处理。我没有像 Scannable iOS 应用程序那样获得扫描文档的质量。

我正在使用以下代码进行图像处理:

- (UIImage *)applyImageProcessing:(UIImage *)aImage
{
cv::Mat originalMat = [self cvMatFromUIImage:aImage];
cv::Mat dest_mat(aImage.size.width, aImage.size.height, CV_8UC4);
cv::Mat intermediate_mat(aImage.size.width, aImage.size.height, CV_8UC4);

cv::multiply(originalMat, 0.5, intermediate_mat);
cv::add(originalMat, intermediate_mat, dest_mat);

return [self UIImageFromCVMat:dest_mat];
}

- (cv::Mat)cvMatFromUIImage:(UIImage*)image
{
CGColorSpaceRef colorSpace = CGImageGetColorSpace(image.CGImage);
CGFloat cols = image.size.width;
CGFloat rows = image.size.height;

cv::Mat cvMat(rows, cols, CV_8UC4); // 8 bits per component, 4 channels (color channels + alpha)
CGContextRef contextRef = CGBitmapContextCreate(cvMat.data, // Pointer to data
cols, // Width of bitmap
rows, // Height of bitmap
8, // Bits per component
cvMat.step[0], // Bytes per row
colorSpace, // Color space
kCGImageAlphaNoneSkipLast
| kCGBitmapByteOrderDefault); // Bitmap info flags

CGContextDrawImage(contextRef, CGRectMake(0, 0, cols, rows), image.CGImage);
CGContextRelease(contextRef);
return cvMat;
}

- (UIImage *)UIImageFromCVMat:(cv::Mat)cvMat
{
NSData *data = [NSData dataWithBytes:cvMat.data length:cvMat.elemSize()*cvMat.total()];

CGColorSpaceRef colorspace;

if (cvMat.elemSize() == 1)
{
colorspace = CGColorSpaceCreateDeviceGray();
}
else
{
colorspace = CGColorSpaceCreateDeviceRGB();
}

CGDataProviderRef provider = CGDataProviderCreateWithCFData((__bridge CFDataRef)data);

// Create CGImage from cv::Mat
CGImageRef imageRef = CGImageCreate(cvMat.cols, cvMat.rows, 8, 8 * cvMat.elemSize(), cvMat.step[0], colorspace, kCGImageAlphaNone | kCGBitmapByteOrderDefault, provider, NULL, false, kCGRenderingIntentDefault);

// get uiimage from cgimage
UIImage *finalImage = [UIImage imageWithCGImage:imageRef];
CGImageRelease(imageRef);
CGDataProviderRelease(provider);
CGColorSpaceRelease(colorspace);
return finalImage;
}

我的应用程序扫描的文档质量和清晰度

可扫描的 iOS 应用扫描的文档质量和清晰度

如何像 scannble 应用程序一样获取扫描文档的结果?


原图:

可扫描的应用程序原始图像:

最佳答案

您需要估计纸张上的光线衰减才能使其均匀。白皮书背景的简单、非局部估计是局部最大值。通过仔细选择足够大的内核大小,使其不包含在任何字符中,您可以过滤掉文本(图@middle)。随后,您可以估算每像素增益。

如果需要,您可以使用 Canny 检测器来检测局部最大值不适用的点——在这种情况下是图像的顶部——并可能以不同的方式处理它们。

最后,您可以应用全局 lut 操作以获得最大对比度,例如,您将使用 Photoshop 曲线工具执行的操作。

cv::Mat src; // input image
if( src.type()!=CV_8UC3 )
CV_Error(CV_StsError,"not impl");
cv::Mat median;
// remove highlight pixels e.g., those from debayer-artefacts and noise
cv::medianBlur(src,median,5);
cv::Mat localmax;
// find local maximum
cv::morphologyEx( median,localmax,
cv::MORPH_CLOSE,cv::getStructuringElement(cv::MORPH_RECT,cv::Size(15,15) ),
cv::Point(-1,-1),1,cv::BORDER_REFLECT101 );

// compute the per pixel gain such that the localmax goes to monochromatic 255
cv::Mat dst = cv::Mat(src.size(),src.type() );
for ( int y=0;y<src.rows;++y){
for ( int x=0;x<src.cols;++x){
const cv::Vec3b & v1=src.at<cv::Vec3b>(y,x);
const cv::Vec3b & v2=localmax.at<cv::Vec3b>(y,x);
cv::Vec3b & v3=dst.at<cv::Vec3b>(y,x);
for ( int i=0;i<3;++i )
{
double gain = 255.0/(double)v2[i];
v3[i] = cv::saturate_cast<unsigned char>( gain * v1[i] );
}
}
}
// and dst is the result

:::编辑:::对于不仅仅包含文本的论文,我修改了算法以使用简单的高斯模型。特别是,我使用了@William Extracting text OpenCVdetectLetters并将 localmax 截断为与文本矩形内的估计值相差 +/- 1 个标准差的平均值。

cv::Mat input = cv::imread(ss.str()+".jpg", CV_LOAD_IMAGE_COLOR );
int maxdim = input.cols; //std::max(input.rows,input.cols);
const int dim = 1024;
if ( maxdim > dim )
{
double scale = (double)dim/(double)maxdim;
cv::Mat t;
cv::resize( input, t, cv::Size(), scale,scale );
input = t;
}
if ( input.type()!=CV_8UC3 )
CV_Error(CV_StsError,"!bgr");
cv::Mat result;
input.copyTo( result ); // result is just for drawing the text rectangles

// as previously...
cv::Mat median;
// remove highlight pixels e.g., those from debayer-artefacts and noise
cv::medianBlur(input,median,5);
cv::Mat localmax;
// find local maximum
cv::Mat kernel = cv::getStructuringElement(cv::MORPH_RECT,cv::Size(15,15) );
cv::morphologyEx( median,localmax,cv::MORPH_CLOSE,kernel,cv::Point(-1,-1),1,cv::BORDER_REFLECT101 );

std::vector< cv::Rect > bb;
// detectLetters by @William, modified to internally do the grayscale conversion if necessary
// https://stackoverflow.com/questions/23506105/extracting-text-opencv?rq=1
detectLetters( input, bb );
// compose a simple Gaussian model for text background (still assumed white)
cv::Mat mask( input.size(),CV_8UC1,cv::Scalar( 0 ) );
if ( bb.empty() )
return; // TODO; none found
for ( size_t i=0;i<bb.size(); ++i )
{
cv::rectangle( result, bb[i], cv::Scalar(0,0,255),2,8 ); // visualize only
cv::rectangle( mask, bb[i], cv::Scalar( 1 ), -1 ); // create a mask for cv::meanStdDev
}
cv::Mat mean,dev;
cv::meanStdDev( localmax, mean, dev, mask );
if ( mean.type()!=CV_64FC1 || dev.type()!=CV_64FC1 || mean.size()!=cv::Size(1,3) || dev.size()!=cv::Size(1,3) )
CV_Error(CV_StsError, "should never happen");
double minimum[3];
double maximum[3];
// simply truncate the localmax according to our simple Gaussian model (+/- one standard deviation)
for ( unsigned int u=0;u<3;++u )
{
minimum[u] = mean.at<double>(u ) - dev.at<double>( u );
maximum[u] = mean.at<double>(u ) + dev.at<double>( u );
}
for ( int y=0;y<mask.rows;++y){
for ( int x=0;x<mask.cols;++x){
cv::Vec3b & col = localmax.at<cv::Vec3b>(y,x);
for ( unsigned int u=0;u<3;++u )
{
if ( col[u]>maximum[u] )
col[u]=maximum[u];
else if ( col[u]<minimum[u] )
col[u]=minimum[u];
}
}
}
// do the per pixel gain then
cv::Mat dst;
input.copyTo( dst );
for ( int y=0;y<input.rows;++y){
for ( int x=0;x<input.cols;++x){
const cv::Vec3b & v1=input.at<cv::Vec3b>(y,x);
const cv::Vec3b & v2=localmax.at<cv::Vec3b>(y,x);
cv::Vec3b & v3=dst.at<cv::Vec3b>(y,x);
for ( int i=0;i<3;++i )
{
double gain = 255.0/(double)v2[i];
v3[i] = cv::saturate_cast<unsigned char>( gain * v1[i] );
}
}
}

// and dst is the result

可在此处找到示例结果:

https://i.imgur.com/FL1xcUF.jpg

:::

enter image description here

:::编辑:::如果您想提高此过滤器的性能,您可以使用 OpenCV 的英特尔 TBB 多包装器将用于最大/最小截断的列和行上的两个嵌套循环以及用于增益的最终循环组合到一个循环中线程技术。这会将循环函数并行化为针对可用 CPU 线程优化的小位,这些线程可以同时工作,因此速度更快:

cv::parallel_for_(cv::Range(0, input.cols * input.rows), [&](const cv::Range& range) {
for (int y=range.start;y<range.end;++y){
int newY = y / input.cols;
int newX = y % input.cols;

const cv::Vec4b & v1=input.at<cv::Vec4b>(newY,newX);
auto & v2 = localmax.at<cv::Vec4b>(newY,newX);
auto & v3=input.at<cv::Vec4b>(newY,newX);
for (int i=0;i<3;++i)
{
if (v2[i]>maximum[i])
v2[i]=maximum[i];
else if (v2[i]<minimum[i])
v2[i]=minimum[i];

double gain = 255.0/(double)v2[i];
v3[i] = cv::saturate_cast<unsigned char>( gain * v1[i] );
}
v3[3] = 1;

}
});

关于ios - 扫描文档 - 使用 OpenCV + iOS 时文本和背景清晰度不佳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49997681/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com