gpt4 book ai didi

hadoop - Hive:如何拥有存储来自情绪分析 API 的情绪值的派生列

转载 作者:可可西里 更新时间:2023-11-01 14:50:32 24 4
gpt4 key购买 nike

场景如下:

假设您有一个存储 Twitter 数据的 Hive 表。

假设它有 5 列。一列是文本数据。

现在如何添加第 6 列来存储来自 Twitter 文本数据的情感分析的情感值。我计划使用 Sentiment140 或 viralheat 等情绪分析 API。

对于如何在 Hive 中实现“派生”列的任何提示,我将不胜感激。

谢谢。

最佳答案

不幸的是,虽然 Hive API 允许您向表中添加新列(使用 ALTER TABLE foo ADD COLUMNS (bar binary)),但这些新列将为 NULL,无法填充。将数据添加到这些列的唯一方法是清除表的行并从新文件加载数据,这个新文件具有该新列的数据。

回答您的问题:在 Hive 中,您不能。要执行您的建议,您必须有一个包含 6 列的文件,第 6 列已经包含情绪分析数据。然后可以将其加载到您的 HDFS 中,并使用 Hive 进行查询。

编辑:刚刚尝试了一个例子,我在添加新列(见上文)后将表导出为 .csv,然后将其弹出到 M$ Excel 中,我可以在其中对表值执行函数。添加功能后,我只是保存并上传了 .csv,并从中重建了表格。不确定这是否对您特别有帮助(因为情绪分析不太可能在 Excel 中完成),但可能对任何其他只想在 Hive 中计算列的人有用。

引用资料:

https://cwiki.apache.org/Hive/gettingstarted.html#GettingStarted-DDLOperations

http://comments.gmane.org/gmane.comp.java.hadoop.hive.user/6665

关于hadoop - Hive:如何拥有存储来自情绪分析 API 的情绪值的派生列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13425623/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com