gpt4 book ai didi

stanford-nlp - 如何解决 StanfordNLP 服务器的 100K 字符限制?

转载 作者:行者123 更新时间:2023-12-02 03:00:01 25 4
gpt4 key购买 nike

我正在尝试使用 StanfordNLP 解析书本长度的文本 block 。 http 请求运行良好,但文本长度有一个不可配置的 100KB 限制,StanfordCoreNLPServer.java 中的 MAX_CHAR_LENGTH。

目前,我在将文本发送到服务器之前将其切碎,但即使我尝试在句子和段落之间进行拆分,这些 block 之间也会丢失一些有用的共指信息。据推测,我可以解析具有较大重叠的 block 并将它们链接在一起,但这似乎 (1) 不优雅且 (2) 需要相当多的维护。

是否有更好的方法来配置服务器或请求以删除手动分块或跨 block 保留信息?

顺便说一句,我正在使用 python 请求模块进行 POST,但我怀疑这会有所不同,除非 corenlp python 包装器以某种方式处理这个问题。

最佳答案

您应该能够使用标志 -maxCharLength -1 启动服务器,这将摆脱句子长度限制。请注意,这在生产中是不可取的:任意大的文档都会消耗任意大量的内存(和时间),尤其是像 coref 这样的东西。

服务器的选项列表应该可以通过使用 -help 调用服务器来访问,并且是 documented in code here .

关于stanford-nlp - 如何解决 StanfordNLP 服务器的 100K 字符限制?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46678204/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com