- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 PDFClown 来分析 PDF 文档。在许多文档中,PDFClown 中的某些字符似乎具有不同的高度,即使它们显然具有相同的高度。有解决办法吗?
这是代码:
while(_level.moveNext()) {
ContentObject content = _level.getCurrent();
if(content instanceof Text) {
ContentScanner.TextWrapper text = (ContentScanner.TextWrapper)_level.getCurrentWrapper();
for(ContentScanner.TextStringWrapper textString : text.getTextStrings()) {
List<CharInfo> chars = new ArrayList<>();
for(TextChar textChar : textString.getTextChars()) {
chars.add(new CharInfo(textChar.getBox(), textChar.getValue()));
}
}
}
else if(content instanceof XObject) {
// Scan the external level
if(((XObject)content).getScanner(_level)!=null){
getContentLines(((XObject)content).getScanner(_level));
}
}
else if(content instanceof ContainerObject){
// Scan the inner level
if(_level.getChildLevel()!=null){
getContentLines(_level.getChildLevel());
}
}
}
这是一个 PDF 文档示例:
在本文档中,我标记了两个文本 block ,它们都包含单词“million”。当分析两个“百万”中每个字符的大小时,会发生以下情况:
即使两个文本 block 的所有字符显然具有相同的大小,pdf clown 也会说大小不同。
最佳答案
该问题是由 PDF Clown 中的错误引起的:它假设标记的内容部分和保存/恢复图形状态 block 正确地相互包含并且不重叠。 IE。它假设这些结构仅混合为
begin-marked-content
save-graphics-state
restore-graphics-state
end-marked-content
或
save-graphics-state
begin-marked-content
end-marked-content
restore-graphics-state
但从未如此
save-graphics-state
begin-marked-content
restore-graphics-state
end-marked-content
或
begin-marked-content
save-graphics-state
end-marked-content
restore-graphics-state.
不幸的是,这个假设是错误的,标记的内容部分和保存/恢复图形状态 block 可以以任何它们喜欢的方式混合。
例如在手头的文档中有这样的序列:
q
[...1...]
/P <</MCID 0 >>BDC
Q
[...2...]
EMC
这里[...1...]
包含在 q
包围的保存/恢复图形状态 block 中和Q
和[...2...]
包含在 /P <</MCID 0 >>BDC
包围的标记内容 block 中和EMC
.
但是,由于错误的假设,以及方式 /P <</MCID 0 >>BDC
和Q
排列好后,PDF Clown 将上面的内容解析为 [...1...]
和一个空的标记内容 block 和 [...2...]
包含在保存/恢复图形状态 block 中。
因此,如果 [...2...]
内部的图形状态发生变化,PDF Clown 假设它们仅限于上面的行,但实际上并非如此。
我发现修复此问题的唯一简单方法是禁用 PDF Clown 中的标记内容解析。
为此,我更改了 org.pdfclown.documents.contents.tokens.ContentParser
如下:
在 parseContentObjects()
我禁用了contentObject instanceof EndMarkedContent
选项:
public List<ContentObject> parseContentObjects(
)
{
final List<ContentObject> contentObjects = new ArrayList<ContentObject>();
while(moveNext())
{
ContentObject contentObject = parseContentObject();
// Multiple-operation graphics object end?
if(contentObject instanceof EndText // Text.
|| contentObject instanceof RestoreGraphicsState // Local graphics state.
/* || contentObject instanceof EndMarkedContent // End marked-content sequence. */
|| contentObject instanceof EndInlineImage) // Inline image.
return contentObjects;
contentObjects.add(contentObject);
}
return contentObjects;
}
在 parseContentObject
我删除了if(operation instanceof BeginMarkedContent)
分支:
public ContentObject parseContentObject(
)
{
final Operation operation = parseOperation();
if(operation instanceof PaintXObject) // External object.
return new XObject((PaintXObject)operation);
else if(operation instanceof PaintShading) // Shading.
return new Shading((PaintShading)operation);
else if(operation instanceof BeginSubpath
|| operation instanceof DrawRectangle) // Path.
return parsePath(operation);
else if(operation instanceof BeginText) // Text.
return new Text(
parseContentObjects()
);
else if(operation instanceof SaveGraphicsState) // Local graphics state.
return new LocalGraphicsState(
parseContentObjects()
);
/* else if(operation instanceof BeginMarkedContent) // Marked-content sequence.
return new MarkedContent(
(BeginMarkedContent)operation,
parseContentObjects()
);
*/ else if(operation instanceof BeginInlineImage) // Inline image.
return parseInlineImage();
else // Single operation.
return operation;
}
完成这些更改后,可以正确提取字符大小。
<小时/>顺便说一句,虽然返回的单个字符框似乎暗示该框完全是针对相关字符自定义的,但事实并非如此:框的宽度仅是特定于字符的,高度是根据整体字体计算的属性(和当前字体大小),但不是特定于字符,参见。 org.pdfclown.documents.contents.fonts.Font
方法getHeight(char)
:
/**
Gets the unscaled height of the given character.
@param textChar
Character whose height has to be calculated.
*/
public final double getHeight(
char textChar
)
{
/*
TODO: Calculate actual text height through glyph bounding box.
*/
if(textHeight == -1)
{textHeight = getAscent() - getDescent();}
return textHeight;
}
单个字符高度计算仍然是待办事项。
关于java - PDFClown 一行中不同字体大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45413682/
我想要以下代码的 Python 单行解决方案,但是怎么做呢? total = 0 for ob in self.oblist: total += sum(v.amount for v in o
今天和大家一起学习一种可视化技术:构建树状热力图treemap。树形图易于可视化,且易于被人理解。树状图通过展示不同大小的矩形,以传达不同大小的数据量,一般认为,较大的矩形意味着占总体的一大部分,而较
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我有一个声明 $set eq "Y" ? $set = "N" : $set = "Y"; 但不管它总是设置为 "N" # Toggle setting if ($set eq "Y") { $
当我尝试在我的服务器上上传一个 php 文件时,我收到一条消息:"Parse error: ..." 我知道这是什么意思,但问题是别的。 如果我在本地服务器上编辑文件(我的计算机上安装了 XAMPP)
我是 python oneliner 循环的新手。 我希望用户将数据输入到二维列表中,同时提醒他他们将输入的数据索引。我的代码是: flag=0 x=[[int(input("enter the "+
尝试在变量之前和之后打印字符串。C 是否有能力使用一条语句来显示此输出? 这有效: float value = 5; printf("\nThe value of %f", value); print
我正在验证我创建的 MySQL 数据库的结果,为此,我需要一些屏幕截图。 例如,以下查询: select distinct run_ID from ngsRunStats_FK.failedRuns
有人可以解释一下这个 JS LINE 吗?数据是一个对象。 var list = data == null ? [] : (data.wine instanceof Array ? data.wine
如何在一行中添加三个下拉菜单。我想把我的日、月和年放在一行中,但不能这样做。任何帮助将不胜感激。我附上我的 jsfiddle . .... 最佳
我正在尝试使用 html 将 iframe 的高度设置为 100%(我已成功完成),但我还在顶部添加了一行额外的文本,所以它太高了 ~16px(这需要一个滚动条)。有没有办法更改 iframe 以显示
这是一个示例,我从文件中读取行作为字符串,以使整个文件作为字符串数组: String[] ArrayOfStrings = (new Scanner( new File("log.txt") ).us
我有一个包含大量定义的配置文件,用于在编译期间包含模块。此外,这意味着我必须经常检查代码内部的定义。每张支票需要 3 行,是否可以在一行中执行此操作。 #if FUNC_ENABLED functio
我正在尝试制作一个水平列表,其中每个 列表中的 s 的高度为 385px,宽度为 400px。 我尝试使用 inline-block 使列表水平排列,但这似乎不起作用。也就是说,我的意思是列表仍然是垂
这很烦人,我有一个带有 css 文件的 wordpress 主题,所有内容都在一长行中。我想知道为什么有人会那样做。现在我已经升级了,我需要将旧文件与新文件进行比较,以便我可以接受更改。 Meld、d
我有一个对象数组,其中每个对象都有一个 search_order 属性。我要检查数组并将所有对象的属性增加 1这是简单的方法: res = [] for r in array: r.searc
我在某些服务器上遇到许多具有相同内容和相同名称的文件。我需要隔离这些文件进行分析,所以我不能只删除重复项。操作系统为Linux(centos和ubuntu)。 我枚举文件名和位置并将它们放入文本文件中
你能在不抛出错误的情况下解决这个问题吗?答案是单线。这是来自一个死的职位发布,在回复中要求回答。我认为这是剔除受访者的聪明方法,但我似乎无法在不出错的情况下回答它。 显而易见的解决方案: f.moo(
这个问题在这里已经有了答案: Is it ok if I omit curly braces in Java? [closed] (16 个答案) 关闭 9 年前。 我在 java 中使用没有大括号
我在这里试图用 python 制作一个简单的计算器,我想知道是否可以在命令运行时将前 3 行合并为一行。我的意思是;我不必按 Enter 键来键入下一个数字/运算符,而是按空格键(在输入部分)。 wh
我是一名优秀的程序员,十分优秀!