- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将.docx
文件解析为xml
。我可以解析它并将xml
渲染到单独的页面中。但是我真正想要的是仅在<body>
中显示template
,而不在metadata
中显示。我怎样才能做到这一点?我尝试使用BodyContentHandler
,但是摆脱了xml tags
。
谢谢。
编辑
我在controller
中有一个简单的代码,但我搞砸了。这就是我以前的经历。我从temp
文件夹中获取文件并将其发送到tikaService
(我从GitHub复制了服务)。Controller
def parse(Document documentInstance) {
def file = new File(documentInstance.fullPath)
def result = tikaService.parseFile(file)
render(view:"parse", text: result, contentType: "text/xml", encoding: "UTF-8")
}
Service
class TikaService {
static transactional = false
String parseFile(File file, TikaConfig tikaConfig, Metadata metadata){
SAXTransformerFactory factory = SAXTransformerFactory.newInstance()
TransformerHandler handler = factory.newTransformerHandler()
handler.transformer.setOutputProperty(OutputKeys.METHOD, "xml")
handler.transformer.setOutputProperty(OutputKeys.INDENT, "yes")
StringWriter sw = new StringWriter()
handler.result = new StreamResult(sw)
Parser parser = new AutoDetectParser(tikaConfig)
ParseContext pc = new ParseContext()
try {
parser.parse(new FileInputStream(file), handler, metadata, pc)
return sw.toString()
} catch (Exception e) {
log.error("Failed to parse file ${file.absolutePath}", e)
throw e
}
}
String parseFile(File file){
TikaConfig tikaConfig = new TikaConfig()
Metadata tikaMeta = new Metadata()
return parseFile(file, tikaConfig, tikaMeta)
}
}
render
,我会得到
parse.gsp
从
${result}
调用结果时
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="Revision-Number" content="0"/>
<meta name="Last-Printed" content="1601-01-01T00:00:00Z"/>
<meta name="cp:revision" content="0"/>
<meta name="meta:print-date" content="1601-01-01T00:00:00Z"/>
<meta name="meta:creation-date" content="2013-03-20T15:29:13Z"/>
<meta name="dcterms:modified" content="1601-01-01T00:00:00Z"/>
<meta name="meta:save-date" content="1601-01-01T00:00:00Z"/>
<meta name="dc:creator" content="ingo "/>
<meta name="Last-Modified" content="1601-01-01T00:00:00Z"/>
<meta name="Author" content="ingo "/>
<meta name="dcterms:created" content="2013-03-20T15:29:13Z"/>
<meta name="date" content="1601-01-01T00:00:00Z"/>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser"/>
<meta name="X-Parsed-By" content="org.apache.tika.parser.microsoft.OfficeParser"/>
<meta name="modified" content="1601-01-01T00:00:00Z"/>
<meta name="creator" content="ingo "/>
<meta name="Creation-Date" content="2013-03-20T15:29:13Z"/>
<meta name="meta:author" content="ingo "/>
<meta name="Content-Type" content="application/msword"/>
<meta name="Last-Save-Date" content="1601-01-01T00:00:00Z"/>
<title/>
</head>
<body>
<p class="überschrift_1"><b>Tika Parser Test </b></p>
<p class="standard">This is a simple test document</p>
</body>
</html>
import javax.xml.transform.OutputKeys
import javax.xml.transform.sax.SAXTransformerFactory
import javax.xml.transform.sax.TransformerHandler
import javax.xml.transform.stream.StreamResult
import org.apache.tika.config.TikaConfig
import org.apache.tika.metadata.Metadata
import org.apache.tika.parser.AutoDetectParser
import org.apache.tika.parser.ParseContext
import org.apache.tika.parser.Parser
import org.apache.tika.sax.BodyContentHandler
import org.apache.tika.sax.ToXMLContentHandler
import org.apache.tika.sax.ToHTMLContentHandler
def parse(Document documentInstance) {
def file = new File(documentInstance.fullPath)
BodyContentHandler handler = new BodyContentHandler(new ToHTMLContentHandler())
AutoDetectParser parser = new AutoDetectParser()
FileInputStream inputstream = new FileInputStream(file)
Metadata metadata = new Metadata()
parser.parse(inputstream, handler, metadata)
}
Namespace http://www.w3.org/1999/xhtml not declared
最佳答案
首先,看起来Tika文档上给出的示例是错误的:
ToHTMLContentHandler toHtmlContentHandler = new ToHTMLContentHandler(outputStream, "UTF-8");
WriteOutContentHandler handler = new WriteOutContentHandler(toHtmlContentHandler, (int) 4000000);
ContentHandler bodyHandler = new BodyContentHandler(handler);
关于grails - Grails-Tika内容操纵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35876259/
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
我们正在尝试使用 https://grails.org/plugin/jms用于 jms 集成。但我们无法解决它。 环顾四周,我能够验证它是否存在于这个 repo 中: http://repo.gra
我有许多集成测试在grails 3中失败(而在grails 2中通过),因为它无法解析导入: grails.test.MockUtils grails.test.Grails模拟 我找不到有关应如何迁
有没有办法在 Grails 站点上发生 Grails 错误时向自己发送详细信息? 设置它的最佳方法是什么?在一个地方? (试图保持干燥) 我想包括产生错误的 URL。 最佳答案 . 如果您打算捕获项目
我有一个 grails 应用程序,其中包含一些被序列化为 JSON 的域对象。在另一个 java/groovy 项目中,我想使用这些域对象。如果我发布一个插件,看起来只有其他 grails 应用程序可
我正在尝试为 Grails 编写一个插件,该插件将根据我们在遗留数据库中设计的特殊 View 自动生成我的域类。我基本上只是想节省一些时间手动编写使域类工作所需的所有映射内容。 我是否可以从自定义 A
我正在尝试编写一个可以在多个 Grails 应用程序中重用的插件。该插件基本上应该是 spring security core 的包装器和 ldap 插件。 这意味着它应该包含: 用户/角色的域类 S
我有一个应用程序,我在其中使用 Spring Security 和 grails 旋律。我计划在生产环境中运行 grails melody,但不希望访问者访问它。我应该如何做到这一点?我尝试在 gra
我只是继承了一个现有的应用程序,而我注意到的第一件事是我必须在每个“grails run-app”之前进行“grails clean”操作,否则会出错。创建该项目的人说,他们还有其他几个具有类似设置的
我有一个自定义 toString我的枚举中的方法: enum TaxRate implements Serializable { RATE23(23.0), ... priva
我正在创建一个 Grails 插件作为复杂产品的包装器。该产品对其他产品(如 hibernate)有很多依赖性。问题是,grails 有一些相同的依赖项,但版本不同。 例如。 Grails -> 休眠
当我掉进 grails 服务的兔子洞时,我目前正在将业务逻辑从 Controller 方法转移到服务。我的服务中有以下方法: Job closeJobOpportunity(Job op, Emplo
我只收到默认验证器消息。我究竟做错了什么? class Questao { static hasMany = [alternativas:Alternativa] static constraints
Closed. This question needs to be more focused 。它目前不接受答案。 想改善这个问题吗?更新问题,使其仅通过 editing this post 关注一个
特定版本的 Grails 支持多长时间?一般的 VMWare 支持策略似乎是支持当前版本和一个版本。我无法找到任何关于支持多长时间版本的 Grails 特定信息,通用 VMWare 策略是否适用? 最
我有一个通过 grails 交互模式运行的 grails 应用程序。此应用程序包含服务、tagLibs、gsps 等,但最重要的是它包含 src/groovy 文件夹中的 groovy 文件。 这些
LinkedIn 的人们一直在以一种有趣的方式使用 Play 来处理需要由许多不同组件组成的页面:http://engineering.linkedin.com/play/composable-and
我在 Grails 应用程序中使用 Servlet 3.0 异步渲染。我收到以下错误。 | Error 2014-04-29 11:10:24,125 [Actor Thread 28] ERROR
我看了Controller.groovy源代码,看起来 CRUD 操作不是事务性的(至少是明确的)。 如果我是对的,这是否意味着不应该在生产中按原样使用动态脚手架?有没有办法使它具有事务性(即我可以修
我如何基本上对字符串数据类型字段执行唯一约束。 class User{ String username String Email static hasMany = [roles:Roles
我是一名优秀的程序员,十分优秀!