gpt4 book ai didi

regex - 组合词的自然语言处理修复

转载 作者:行者123 更新时间:2023-12-04 15:37:04 24 4
gpt4 key购买 nike

我有一些由另一个系统生成的文本。它将一些单词组合在一起,我认为是某种自动换行副产品。所以像“狗”这样简单的东西被组合成“狗”。

我检查了 ascii 和 unicode 字符串,看那里没有一些看不见的字符,但没有。一个令人困惑的问题是,这是医学文本,并且没有可供检查的语料库。所以,真实的例子是“......排除SARS与肺炎的测试”最终变成了“......与肺炎”。

任何人都有寻找和分离这些的建议?

最佳答案

您可能对此感兴趣 http://www.perlmonks.org/?node_id=336331

您可能可以通过使用两本词典来充分利用文本的医学性质,其中一本仅包含医学术语,另一本包含通用英语。

如果您可以隔离出医学单词,然后将字符串的其余部分与通用词典进行比较,您应该会得到一些不错的结果。

关于regex - 组合词的自然语言处理修复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5319358/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com