gpt4 book ai didi

search - 使用Hadoop预处理文本消息的最佳方法

转载 作者:行者123 更新时间:2023-12-02 21:58:11 27 4
gpt4 key购买 nike

我正在使用Hadoop处理文本消息(SMS)。但我不确定预处理这些数据的最佳方法,以便可以进行有效的搜索。例如,在对数据进行预处理之后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。
是否建议将预处理后的数据写入xml文件而不是数据库中。

注意:我在.csv文件中大约有20万条短信。

最佳答案

我将预处理的数据导入hdfs的方式是先将数据(在您的情况下为csv文件)导入数据库,然后创建一个表 View 以对其进行微调。然后,我使用Sqoop将数据导入hdfs。可以在这里找到有关sqoop的更多信息

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

从数据库导入sqoop的方法

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

关于search - 使用Hadoop预处理文本消息的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6543102/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com