gpt4 book ai didi

Python 从 URL 字符串中解析单词

转载 作者:行者123 更新时间:2023-12-01 09:29:41 26 4
gpt4 key购买 nike

我有大量的网址数据集,我需要一种方法来解析网址中的单词,例如:

realestatesales.com -> {"real","estate","sales"}

我更喜欢用 python 来做。这似乎应该可以通过某种英语词典来实现。可能会有一些模棱两可的情况,但我觉得应该在某个地方找到解决方案。

最佳答案

用词词典填充的三元搜索树可以相当有效地找到最复杂的匹配词集()。这是我之前使用的解决方案。
您可以在此处获得 tst 的 C/Python 实现:http://github.com/nlehuen/pytst

示例:

import tst
tree = tst.TST()
#note that tst.ListAction() assigns each matched term to a list
words = tree.scan("MultipleWordString", tst.ListAction())

其他资源:

名为“Solr”的开源搜索引擎使用它所谓的“Word-Boundary-Filter”来处理这个您可能想看看的问题。

关于Python 从 URL 字符串中解析单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17093322/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com