java - Stanford Dependency Parser - 如何获得跨度？-6ren

java - Stanford Dependency Parser - 如何获得跨度？

转载作者：搜寻专家更新时间：2023-11-01 03:25:08

24

4

我正在使用 Java 中的 Stanford 库进行依赖项解析。有什么办法可以取回我原来的依赖字符串中的索引吗？我试图调用 getSpans() 方法，但它为每个标记返回 null:

LexicalizedParser lp = LexicalizedParser.loadModel(
        "edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz",
        "-maxLength", "80", "-retainTmpSubcategories");
TreebankLanguagePack tlp = new PennTreebankLanguagePack();
GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
Tree parse = lp.apply(text);
GrammaticalStructure gs = gsf.newGrammaticalStructure(parse);
Collection<TypedDependency> tdl = gs.typedDependenciesCollapsedTree();
for(TypedDependency td:tdl)
{
      td.gov().getSpan()  // it's null!
      td.dep().getSpan()  // it's null!
}

有什么想法吗？

最佳答案

我终于编写了自己的辅助函数来获取原始字符串的跨度:

public HashMap<Integer, TokenSpan> getTokenSpans(String text, Tree parse)
{
    List<String> tokens = new ArrayList<String>();
    traverse(tokens, parse, parse.getChildrenAsList());
    return extractTokenSpans(text, tokens);
}

private void traverse(List<String> tokens, Tree parse, List<Tree> children)
{
    if(children == null)
        return;
    for(Tree child:children)
    {
        if(child.isLeaf())
        {
            tokens.add(child.value());
        }
        traverse(tokens, parse, child.getChildrenAsList());         
    }
}

private HashMap<Integer, TokenSpan> extractTokenSpans(String text, List<String> tokens)
{
    HashMap<Integer, TokenSpan> result = new HashMap<Integer, TokenSpan>();
    int spanStart, spanEnd;

    int actCharIndex = 0;
    int actTokenIndex = 0;
    char actChar;
    while(actCharIndex < text.length())
    {
        actChar = text.charAt(actCharIndex);
        if(actChar == ' ')
        {
            actCharIndex++;
        }
        else
        {
            spanStart = actCharIndex;
            String actToken = tokens.get(actTokenIndex);
            int tokenCharIndex = 0;
            while(tokenCharIndex < actToken.length() && text.charAt(actCharIndex) == actToken.charAt(tokenCharIndex))
            {
                tokenCharIndex++;
                actCharIndex++;
            }

            if(tokenCharIndex != actToken.length())
            {
                //TODO: throw exception
            }
            actTokenIndex++;
            spanEnd = actCharIndex;
            result.put(actTokenIndex, new TokenSpan(spanStart, spanEnd));
        }
    }
    return result;
}

那我打电话

 getTokenSpans(originalString, parse)

所以我得到了一个映射，它可以将每个标记映射到它对应的标记范围。这不是一个优雅的解决方案，但至少它有效。

关于java - Stanford Dependency Parser - 如何获得跨度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16026881/

24

4

0

文章推荐： GSSAPI 中的 javax.naming.AuthenticationException

文章推荐： java - 打印树组件

文章推荐： java - 在 Hibernate 4 中定义默认类型映射

parsing - 创建类型为 Parser a -> Parser b -> Parser (要么 a b)的解析器组合器
我想解析一些文本，其中某些字段在大多数情况下都具有结构，但偶尔(由于特殊大小写、拼写错误等)该结构会丢失。例如常规情况是 Cost: 5，但偶尔会显示 Cost: 5m 或 Cost: 3 + 1
java - parser.setFeature 与 parser.setValidating
以下有什么区别: parser.setFeature("http://xml.org/sax/features/validation",true); and parser.setFeature("ht
node.js - npm 错误! EPROTO : protocol error, 符号链接(symbolic link) '../@babel/parser/bin/babel-parser.js' -> '/home/vagrant/code/proadco.test/node_modules/.bin/parser'
我尝试在 Windows 8.1 上的 Git Bash 客户端中执行 npm install，但收到以下错误: npm WARN optional SKIPPING OPTIONAL DEPENDE
types - 理解这个 elm url-parser Parser 类型声明
试图理解 evancz/url-parser 模块时，我偶然发现了这种我难以理解的类型声明:( source ) type Parser a b = Parser (State a -> List
typescript - ESLint 配置中的 "parser"和 "parserOptions.parser"有什么区别？
我长期使用下面的 TypeScript 和 Vue 预设。它有效，但我还没有理解每个选项，现在要理解它。第一:parser之间有什么区别？和 @typescript-eslint/parser ？ p
javascript - node-sql-parser ， parser.astify(sqlquery) 不返回准确的输出
我正在尝试使用node-sql-parser在nodejs中解析sql查询。 const {Parser} = require('node-sql-parser'); const parser = n
javascript - AgnualrJs - $parsers.unshift 与 $parsers.push 的区别
自定义指令中的 ngModelCtrl.$parsers.unshift 和 ngModelCtrl.$parsers.push 之间的确切区别是什么。当发生对模型生效但对表单本身无效的事情时，我想
java - XML Pull Parser 和 SAX Parser 有什么区别
我正在寻找 SAX 和 Pull Parser 之间的主要区别。我知道 SAX 解析器非常适合处理大型 XML 文件，因为它不存储 XML 并且只在一个方向上遍历。与 DOM 相比。但我无法找到 SA
c++ - 对 QJson::Parser::Parser 的 undefined reference
我已经按照存档中的说明成功(？)安装了 QJson 库。但是编译器给我这个错误: Undefined reference to QJSon::Parser::Parser(). 我找到了安装库文件的位
html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
Java cucumber -java.lang.NoSuchMethodError : gherkin. parser.Parser.parse
尝试实现 Cucumber 来进行一些自动化测试。当我使用 junit 运行测试时，出现以下错误项目路径: src/test/java/ cucumberJava -cucumberjava,ja
node.js - Node Body Parser 和 cookie parser 有什么作用？我应该使用它们吗？
我已经阅读了我能找到的所有文档，但是我找不到关于这两个中间件的作用的简单解释。 body-parser 中的body 指的是什么？为什么需要解析正文？ Cookie 也类似。我是否更正了 cookie
java - Deorg.apache.xerces.parsers.XIncludeAwareParserConfiguration无法转换为org.apache.xerces.xni.parser.XMLParserConfiguration
我在gradle项目中使用Xerces jar，然后在gradle插件中使用该项目的jar:实际上，我正在开发一个gradle插件，其中包含使用gradle项目jar的某些功能的自定义任务；当我尝试运
java - org.apache.commons.net.ftp.parser.ParserInitializationException : Unknown parser type: Linux
我正在尝试连接到 Linux 上的 FTP 服务器，当我执行 ftp.listFiles(remote); 时遇到异常 SYST 215 Linux Exception in thread "AW
reactjs - 创建 react 应用程序-没有 typescript ，得到了错误: Failed to load parser '@typescript-eslint/parser'
我有react-app的示例安装，我得到了以下内容 Error: Failed to load parser '@typescript-eslint/parser' declared in '.esl
java - ClassCastException : org. apache.xerces.parsers.XIncludeAwareParserConfiguration 无法转换为 org.apache.xerces.xni.parser.XMLParserConfiguration
我在 there 中提到过类似的问题.我正在使用 mvn clean compile site 命令，我的版本是: cobertura.version: 2.5.1 findbugs.version:
java - ClassCastException : org. apache.xerces.parsers.XIncludeAwareParserConfiguration 无法转换为 org.apache.xerces.xni.parser.XMLParserConfiguration
我正在 Eclipse 中开发 GWT 应用程序并使用 jdom2 读取一些自定义 xml 属性文件。在最近的更新之后，我的应用程序现在在尝试读取 xml 文件时失败并出现上述错误。相关堆栈跟踪是:
java.lang.IllegalAccessError : class javax. xml.parsers.SecuritySupport12 无法访问其父类(super class) javax.xml.parsers.SecuritySupport
我正在使用 spring+maven。我正在 tomcat 服务器中部署我的应用程序。当我尝试运行我的应用程序时，突然出现以下错误。 INFO: Starting Servlet Engine: Ap
python - 使用 "import dateutil"和 "dateutil.parser.parse()"时出现 AttributeError 但使用 "from dateutil import parser"时没有问题
我在玩dateutil module在 Python 2.7.3 中。我只是想使用: import dateutil dateutil.parser.parse("01-02-2013") 但我得到了
Python基于argparse与ConfigParser库进行入参解析与ini parser
一.入参解析库 argparse 　　有时候写Python脚本，需要处理入参[-h][-v][-F]...等情况，如果自己来解析的话，会花费很多时间，而且也容易出问题，好在Python有现成的li

首页

博学

6Ren·AI

商城

java - Stanford Dependency Parser - 如何获得跨度？