python - 在 Python 中将单词解析为(前缀、词根、后缀)-6ren

python - 在 Python 中将单词解析为(前缀、词根、后缀)

转载作者：太空狗更新时间：2023-10-30 00:00:09

29

4

我正在尝试为一些文本数据创建一个简单的解析器。 (文本使用 NLTK 没有任何解析器的语言。)

基本上，我的前缀数量有限，可以是一个或两个字母；一个词可以有多个前缀。我也有一个或两个字母的后缀数量有限。它们之间的任何东西都应该是这个词的“词根”。许多单词会有更多的可能解析，所以我想输入一个单词并以元组(前缀、根、后缀)的形式返回可能的解析列表。

虽然我不知道如何构建代码。我粘贴了我尝试过的一种方法的示例(使用一些虚拟的英语数据使其更易于理解)，但这显然是不正确的。一方面，它真的很丑陋和多余，所以我相信有更好的方法来做到这一点。另一方面，它不适用于具有多个前缀或后缀或同时具有前缀和后缀的单词。

有什么想法吗？

prefixes = ['de','con']
suffixes = ['er','s']

def parser(word):
    poss_parses = []
    if word[0:2] in prefixes:
        poss_parses.append((word[0:2],word[2:],''))
    if word[0:3] in prefixes:
        poss_parses.append((word[0:3],word[3:],''))
    if word[-2:-1] in prefixes:
        poss_parses.append(('',word[:-2],word[-2:-1]))
    if word[-3:-1] in prefixes:
        poss_parses.append(('',word[:-3],word[-3:-1]))
    if word[0:2] in prefixes and word[-2:-1] in suffixes and len(word[2:-2])>2:
        poss_parses.append((word[0:2],word[2:-2],word[-2:-1]))
    if word[0:2] in prefixes and word[-3:-1] in suffixes and len(word[2:-3])>2:
        poss_parses.append((word[0:2],word[2:-2],word[-3:-1]))
    if word[0:3] in prefixes and word[-2:-1] in suffixes and len(word[3:-2])>2:
        poss_parses.append((word[0:2],word[2:-2],word[-2:-1]))
    if word[0:3] in prefixes and word[-3:-1] in suffixes and len(word[3:-3])>2:
        poss_parses.append((word[0:3],word[3:-2],word[-3:-1]))
    return poss_parses



>>> wordlist = ['construct','destructer','constructs','deconstructs']
>>> for w in wordlist:
...   parses = parser(w)
...   print w
...   for p in parses:
...     print p
... 
construct
('con', 'struct', '')
destructer
('de', 'structer', '')
constructs
('con', 'structs', '')
deconstructs
('de', 'constructs', '')

最佳答案

Pyparsing 将字符串索引和标记提取包装到它自己的解析框架中，并允许您使用简单的算术语法来构建您的解析定义:

wordlist = ['construct','destructer','constructs','deconstructs']

from pyparsing import StringEnd, oneOf, FollowedBy, Optional, ZeroOrMore, SkipTo

endOfString = StringEnd()
prefix = oneOf("de con")
suffix = oneOf("er s") + FollowedBy(endOfString)

word = (ZeroOrMore(prefix)("prefixes") + 
        SkipTo(suffix | endOfString)("root") + 
        Optional(suffix)("suffix"))

for wd in wordlist:
    print wd
    res = word.parseString(wd)
    print res.dump()
    print res.prefixes
    print res.root
    print res.suffix
    print

结果在一个名为 ParseResults 的丰富对象中返回，该对象可以作为简单列表、具有命名属性的对象或字典来访问。这个程序的输出是:

construct
['con', 'struct']
- prefixes: ['con']
- root: struct
['con']
struct


destructer
['de', 'struct', 'er']
- prefixes: ['de']
- root: struct
- suffix: ['er']
['de']
struct
['er']

constructs
['con', 'struct', 's']
- prefixes: ['con']
- root: struct
- suffix: ['s']
['con']
struct
['s']

deconstructs
['de', 'con', 'struct', 's']
- prefixes: ['de', 'con']
- root: struct
- suffix: ['s']
['de', 'con']
struct
['s']

关于python - 在 Python 中将单词解析为(前缀、词根、后缀)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10156448/

29

4

0

文章推荐： c# - 我应该如何在 msbuild 脚本中引用 sn.exe？

文章推荐： c# - yield return 语句如何不返回任何元素？

文章推荐： c# - 检查 DataGridView 上的所有复选框项目

文章推荐： python - 对数据库进行更改后重新评估 django 查询

elasticsearch - Elasticsearch 错误-[前缀]查询不支持[前缀]
发布以下查询时，出现错误响应 {"error":{"root_cause":[{"type":"parsing_exception","reason":"[prefix] query does not
django - 找不到平台无关的库 <前缀> 考虑将 $PYTHONHOME 设置为 <前缀>[ :]
我对 Python 和 Django 真的很陌生......我想做的是: 在 Mac OS 10.6.8 上安装 Python 2.7 安装 pip 安装 Django 安装 virtualenvwr
前缀，中缀，后缀表达式
前缀表达式前缀表达式又称波兰式，前缀表达式的运算符位于操作数之前。例如： ( 3 + 4 ) × 5 − 6 (3+4)×5-6(3+4)×5−6 对应的前缀表达式就是 - × + 3 4 5 6
unicode - 英特尔C编译器和L”前缀
如何在Intel C编译器中定义俄语字符串？在MSVS 2008中，我这样做： _wsetlocale(LC_ALL, L"Russian"); wprintf(L"текст"); 而且有效。在
makefile - 在Makefile中设置环境变量时@前缀
这是我到目前为止所得到的: SPECS = $(shell find spec -iname "*_spec.js") spec: @NODE_ENV=test \ @NODE_PAT
clojure - 前缀::是什么意思
我看到了下面的前缀::它代表什么？ :abc 是一个关键字，但是 ::abc 是什么？谢谢，穆尔塔扎最佳答案假设当前命名空间是my.app。然后， ::x 是 :my.app/x 的阅读器简写，
javascript - 如何从嵌入中排除 `+` 前缀
我为我的 discord 创建了一个建议功能，用户可以说 +suggest(建议)，它会自动发布到另一个 channel 。有些事情我需要帮助: 将“建议由用户制作”放入标题中，而不是在单独的行中。
c -++(前缀)返回左值吗？
#include int main() { int a=1; printf("%d",(++a)++); return 0; } 此代码出现错误 error: invalid lvalue in
Java:前缀 - 后缀问题
我在使用前缀和后缀运算符对数字执行减法时遇到了一个小问题。这是我的程序: public class postfixprefix { public static void main (Strin
html - 前缀 - 这是什么意思
当我在 Android native 浏览器中运行 HTML5 兼容性测试时，它会看到 IndexedDB 支持标记为“Prefixed”，而在 Chrome 和其他浏览器中则标记为“Yes”。我知道
c++ - 运算符重载--(前缀)
我试过重载运算符--前缀，但我有错误，有人帮忙吗？ #include #include "Circulo.h" using namespace std; int main() { //par
javascript - 如何在每一行前面加上 `>` 前缀
我正在尝试在我正在制作的这个论坛上创建一个引用功能，当我按下引用时，我只需用 Markdown 填充 textarea ，但唯一的事情是我需要在每行的 markdown 前面加上 > 前缀，这样它就是
c++ - 带线程的运算符++(前缀)
friend 之间打赌。sum 变量定义为全局变量。我们有 2 个线程在循环 1..100 上运行并在每个循环中将 sum 递增 1。打印什么？“和=”？ int sum = 0; void fun
c++ - 前缀/后缀增量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Post Increment and Pre Increment concept? 谁能明确解释前缀增量与后
c++ - 有没有办法避免在模板基类成员前面加上 `this` 前缀？
从模板类继承时，我需要在派生类中访问的所有基类成员前面加上this: template struct X{ int foo; void bar(); }; template struct
c++ - 为什么通过函数指针调用成员函数时需要 "this"前缀？
据我所知，在 C++ 中，在同一类的函数成员中调用另一个成员函数不需要“this”前缀，因为它是隐式的。但是，在使用函数指针的特定情况下，编译器需要它。仅当我通过 func 指针为调用包含“this”
c++ - 我们是否需要在嵌套类型的成员参数前加上 "::"前缀？
例如，考虑以下名称冲突的地方 nest1 : template class nest1 {}; class cls { public: template class nest1 {};
c++ - 指针算术递增后缀/前缀
我无法理解下面一段特定代码的逻辑。 int i[] = { 21, 4, -17, 45 }; int* i_ptr = i; std::cout << (*i_ptr)++ << std::endl
php - 数据库搜索减去 "The"前缀
有人能给我指出正确的方向吗，我目前有一个可搜索的数据库，但遇到了按标题搜索的问题。如果标题以“The”开头，那么显然标题将位于“T”部分，避免搜索“The”的好方法是什么？我应该连接两个字段来显示标
ios - 前缀 - 配置有问题
我在 2 小时前创建了一个新项目。以与我的旧(不同)项目相同的方式配置它，一切正常。在我的 podfile 中我有: pod 'CocoaLumberjack', '2.0.0-rc2' 如果我在

首页

博学

6Ren·AI

商城

python - 在 Python 中将单词解析为(前缀、词根、后缀)