- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试实现 Twitter 情绪分析。我需要获取所有正面推文和负面推文并将它们存储在特定的文本文件中。
示例.json
{"id": 252479809098223616, "created_at": "Wed Apr 12 08:23:20 +0000 2016", "text": "google is a good company", "user_id": 450990391}{"id": 252479809098223616, "created_at": "Wed Apr 12 08:23:20 +0000 2016", "text": "facebook is a bad company","user_id": 450990391}
dictionary.text 包含所有的肯定词和否定词列表
weaksubj 1 bad adj n negative
strongsubj 1 good adj n positive
pig 脚本:-
tweets = load 'new.json' using JsonLoader('id:chararray,text:chararray,user_id:chararray,created_at:chararray');
dictionary = load 'dictionary.text' AS (type:chararray,length:chararray,word:chararray,pos:chararray,stemmed:chararray,polarity:chararray);
words = foreach tweets generate FLATTEN( TOKENIZE(text) ) AS word,id,text,user_id,created_at;
sentiment = join words by word left outer, dictionary by word;
senti2 = foreach sentiment generate words::id as id,words::created_at as created_at,words::text as text,words::user_id as user_id,dictionary::polarity as polarity;
res = FILTER senti2 BY polarity MATCHES '.*possitive.*';
描述资源:-
res: {id: chararray,created_at: chararray,text: chararray,user_id: chararray,polarity: chararray}
但是当我转储 res 时,我没有看到任何输出,但它执行得很好,没有任何错误。
我在这里做错了什么。
请给我建议。
莫汉V
最佳答案
我在这里看到 2 个错误
解决方案:使用 PigStorage() 指定适当的分隔符;
dictionary = load 'dictionary.text' AS (type:chararray,length:chararray,word:chararray,pos:chararray,stemmed:chararray,polarity:chararray);
DUMP dictionary;
(weaksubj 1 bad adj n negative,,,,,)
(strongsubj 1 good adj n positive,,,,,)
第二个错误:第 6 行:更正 positive 的拼写!使用类似的东西
res = FILTER senti2 BY UPPER(polarity) MATCHES '.*POSITIVE.*';
关于hadoop - pig :Twitter Sentiment Analysis,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39586045/
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
在进行情感分析时,如何让机器理解我指的是苹果(iphone),而不是苹果(水果)? 谢谢你的建议! 最佳答案 嗯,有几种方法, 我会从检查大写字母开始,通常,当提到一个名字时,第一个字母是大写的。 在
我和一群人正在开发一种情绪分析算法。我想知道哪些是现有的,因为我想比较它们。有没有文章有这方面的主要算法? 提前致谢 蒂亚戈 最佳答案 一些关于情感分析的论文可能对你有帮助—— Bo Pang, Li
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在对一篇文章进行情感分析。我不知道如何使用情感分析来检查文章是正面的、负面的还是中立的。 得分18,比较7.7% 最佳答案 在您的文章中被检测为“正面”或“负面”的每个词都有一个分数(高于 0 表
我想在我的项目中使用 SentiWordNet,但我无法弄清楚意义数字有什么作用?这是 SentiWordNet 单词列表的一部分; POS ID PosScore NegScore SynsetTe
有谁知道 textblob 情绪是如何运作的?我知道它基于 Pattern 工作,但我找不到任何文章或文档解释模式如何为句子分配极性值。 最佳答案 下面是 textblog 情感模块的代码: http
我的应用需要情绪分析功能。我发现有很多服务和图书馆可以帮助完成这项任务。但它们中的大多数都有“三维”输出:文本可能被归类为“正面”、“负面”或“中性”。 但如果我需要更多种类的选项怎么办?例如:“自信
是否可以遍历一串词,使用情绪维达将它们分类为正面、负面或中性,然后如果它们是正面的,则将这些正面的词附加到列表中?下面的 for 循环是我想要完成的非工作代码。我是 Python 的初学者,所以如果有
我正在分析社交网络上的情绪。基于不同 相关话题 作为输入。我们如何处理个别主题分数的分散? 例如:我们正在尝试对包含不同关键字的事件的主题进行情绪评分,假设主题是具有以下主题(关键字或同义词)的创新周
我正在探索tensorflow,并希望使用可用的选项进行情感分析。我看了下面的教程http://www.tensorflow.org/tutorials/recurrent/index.html#la
我在 SO 上发现了上一个问题:N-grams: Explanation + 2 applications . OP给出了这个例子并询问它是否正确: Sentence: "I live in NY."
我正在尝试关注this情感分析在线教程。代码: new_sentiments % #From the tidytext package filter(lexicon != "loughran")
我正在尝试实现 Twitter 情绪分析。我需要获取所有正面推文和负面推文并将它们存储在特定的文本文件中。 示例.json {"id": 252479809098223616, "created_at
我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面评论和负面评论,我注意到执行 TF-IDF 实际上将准确度降低了大约 2%(在对 50000 条评论的测试集进行测试时) .所以我
我正在使用 Theano 的 DBN(深度信念网络)和 SDA(堆叠降噪自动编码器)示例进行文本分类实验。我已经生成了一个特征/标签数据集,就像生成 Theano 的 MINST 数据集一样,并更改了
我在我的 ubuntu 实例上设置了 CoreNLP 服务器,它工作正常。我对 Sentiment 模块更感兴趣,目前我得到的是 { sentimentValue: "2", sentiment: "
我的文字来源于一个社交网络,所以你可以想象它的本质,我认为文字是我想象中的干净和最小的;执行以下 sanitizer 后: 没有网址,没有用户名 没有标点符号,没有重音符号 没有数字 没有停用词(我想
我一直在使用 Vader Sentiment 进行一些文本情感分析,我注意到我的数据中有很多“有待改进”的短语被错误地归类为中性: In[11]: sentiment('way to go John'
我是 Python 的初学者,正在尝试使用 nltk.sentiment.vader,但尽管多次尝试修复它,但仍收到反复出现的错误消息。我之前安装了大部分 NTLK(3 个模块已过时,因此无法安装)。
我是一名优秀的程序员,十分优秀!