gpt4 book ai didi

python - 只是分心 : tokenizing English without whitespaces. Murakami SheepMan

转载 作者:太空狗 更新时间:2023-10-29 21:41:08 24 4
gpt4 key购买 nike

我想知道如果删除空格,将如何对英语(或其他西方语言)的字符串进行分词?

问题的灵感来自于村上小说中的羊人角色' Dance Dance Dance '

在小说中,羊人被翻译成这样的话:

"likewesaid, we'lldowhatwecan. Trytoreconnectyou, towhatyouwant," said the Sheep Man. "Butwecan'tdoit-alone. Yougottaworktoo."

因此,保留了一些标点符号,但不是全部。足以供人类阅读,但有些武断。

您为此构建解析器的策略是什么?字母的常见组合、音节数、条件语法、前视/后视正则表达式等?

具体来说,在 Python 方面,您将如何构建(宽容的)翻译流程?不要求完整的答案,只要求您的思维过程如何分解问题。

我以一种轻浮的方式问这个问题,但我认为这个问题可能会得到一些有趣的(nlp/crypto/frequency/social)答案。谢谢!

最佳答案

大约八个月前,我实际上为工作做了这样的事情。我只是在哈希表中使用了英语单词字典(用于 O(1) 查找时间)。我会逐个字母匹配整个单词。它运作良好,但存在许多歧义。 (屁股可以被打屁股或狗屎)。要解决这些歧义,需要更复杂的语法分析。

关于python - 只是分心 : tokenizing English without whitespaces. Murakami SheepMan,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3851723/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com