gpt4 book ai didi

hadoop - 使用 Hadoop MapReduce 的计算语言学项目构想

转载 作者:可可西里 更新时间:2023-11-01 14:25:11 24 4
gpt4 key购买 nike

我需要做一个关于计算语言学类(class)的项目。是否有任何有趣的“语言”问题,这些问题的数据密集度足以使用 Hadoop map reduce 来解决。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集,这样我就可以为它使用 hadoop。我知道有一个用于 hadoop 的 python 自然语言处理工具包。

最佳答案

如果你有一些“不寻常”语言的大型语料库(在“已经执行了有限数量的计算语言学”的意义上),重复一些已经为非常流行的语言(例如英语)执行的现有计算语言学工作, 中文, 阿拉伯语, ...) 是一个非常合适的项目(尤其是在学术环境中,但它也可能非常适合工业——当我在 IBM Research 从事计算语言学时,我从组合中获得了有趣的里程一个意大利语语料库,并重复 [[在罗马相对较新的 IBM 科学中心]] 与约克镇高地的 IBM 研究团队 [[我曾参与其中]] 已经为英语所做的工作非常相似。

困难的工作通常是寻找/准备这样的语料库(这绝对是我当时工作中最重要的部分,尽管 IBM Italy 竭诚帮助我与拥有相关数据的出版公司取得联系)。

因此,这个问题很突出,只有您才能回答:您可以访问或可以获得哪些语料库(并清理等),尤其是“不寻常”语言的语料库?如果你所能做的只是,例如英语,使用已经流行的语料库,那么做新颖有趣的工作的机会当然会更难,尽管当然可能会有一些。

顺便说一句,我假设您正在严格考虑处理“书面”文本,对吗?如果您有一个口语 Material 语料库(最好好的成绩单),机会将是无穷无尽的(处理口语文本的工作要少得多,例如参数化发音不同的母语人士对同一份书面文本的变体——事实上,在本科生 CL 类(class)中,此类问题通常提及!)。

关于hadoop - 使用 Hadoop MapReduce 的计算语言学项目构想,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2353582/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com