scala - 使用 Spark 分析推特数据-6ren

scala - 使用 Spark 分析推特数据

转载作者：可可西里更新时间：2023-11-01 16:50:56

27

4

其他任何人都可以帮助我了解如何根据我写的“键”分析推特数据。我找到了这段代码，但这给我一个错误。

import java.io.File
import com.google.gson.Gson
import org.apache.spark.streaming.twitter.TwitterUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
 * Collect at least the specified number of tweets into json text files.
 */
object Collect {
  private var numTweetsCollected = 0L
  private var partNum = 0
  private var gson = new Gson()

  def main(args: Array[String]) {
    // Process program arguments and set properties
    if (args.length < 3) {
      System.err.println("Usage: " + this.getClass.getSimpleName +
        "<outputDirectory> <numTweetsToCollect> <intervalInSeconds> <partitionsEachInterval>")
      System.exit(1)
    }
    val Array(outputDirectory, Utils.IntParam(numTweetsToCollect),  Utils.IntParam(intervalSecs), Utils.IntParam(partitionsEachInterval)) =
      Utils.parseCommandLineWithTwitterCredentials(args)
    val outputDir = new File(outputDirectory.toString)
    if (outputDir.exists()) {
      System.err.println("ERROR - %s already exists: delete or specify another directory".format(
        outputDirectory))
      System.exit(1)
    }
    outputDir.mkdirs()

    println("Initializing Streaming Spark Context...")
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(intervalSecs))

    val tweetStream = TwitterUtils.createStream(ssc, Utils.getAuth)
      .map(gson.toJson(_))

    tweetStream.foreachRDD((rdd, time) => {
      val count = rdd.count()
      if (count > 0) {
        val outputRDD = rdd.repartition(partitionsEachInterval)
        outputRDD.saveAsTextFile(outputDirectory + "/tweets_" + time.milliseconds.toString)
        numTweetsCollected += count
        if (numTweetsCollected > numTweetsToCollect) {
          System.exit(0)
        }
      }
    })

    ssc.start()
    ssc.awaitTermination()
  }
}

错误是

object gson is not a member of package com.google

如果你知道关于它的任何链接或解决这个问题，你可以与我分享，因为我想用 spark 分析 twitter 数据。谢谢。:)

最佳答案

正如 Peter 所指出的，您缺少 gson 依赖项。因此，您需要将以下依赖项添加到您的 build.sbt 中:

libraryDependencies += "com.google.code.gson" % "gson" % "2.4"

您还可以执行以下操作以在一个序列中定义所有依赖项:

libraryDependencies ++= Seq(
    "com.google.code.gson" % "gson" % "2.4",
    "org.apache.spark" %% "spark-core" % "1.2.0",
    "org.apache.spark" %% "spark-streaming" % "1.2.0",
    "org.apache.spark" %% "spark-streaming-twitter" % "1.2.0"
)

奖励:如果缺少其他依赖项，您可以尝试在 http://mvnrepository.com/ 上搜索您的依赖项如果您需要查找给定类的关联 jar/依赖项，您还可以使用 findjar website

关于scala - 使用 Spark 分析推特数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33346505/

27

4

0

文章推荐： android - http客户端Android中的用户代理

文章推荐： php - 如何在 PHP 中禁用 Curl 调试输出

文章推荐： java - 将 XML 文件发送到 Android 中的 Web 服务器

文章推荐： hadoop - 洗牌和排序后的 n-Records 到 reducer

推特:分享带参数的链接
我的网站上有一个分享按钮。但是我需要分享带参数的链接，而且每次的参数都不一样(我需要跟踪分享的用户等) 例如需要共享链接 http://mySite.com/page?userId=111&some
推特:推特发布后推特卡片不显示图像
我正在尝试使用推特分享按钮分享推文，并使用推特卡片通过我的链接发布图片，我正在使用: 并使用此共享按钮: Tweet 但此代码仅在 twitter 上共享文本和链接，而不与图像共享。
r - 推特:一次获得多个用户的关注者
我正在开展一个项目，我需要找到一些社交事件的影响范围。我想知道有多少人在丹麦的一个名为 Tinderbox 的节日上接触到评论。我所做的是获取 Twitter 上的状态，包括丹麦语中的“tinderb
java - 推特 : getStatus()
我正在用 Java 创建一个桌面 Twitter 客户端，并且正在使用 JTwitter。我用这个库测试了几行代码，这看起来不错，但我陷入了困境。运行我的应用程序时，Eclipse 打印: Excep
Python 推特 Json
我有一个 json 文件，我从推特上得到的。如何将以下内容解析为json？ {"min_position":"456662757081759744","has_more_items":true,"it
python - 推特/通用分类训练语料库
有人知道任何好的广泛的 Twitter 分类语料库吗？我正在寻找广泛的类别，例如: - 运动 - 科学/技术 - 食物 - 健康 - 娱乐 - 音乐 - 游戏 - 财务 - 教育 - 政治 - 电视
android - 推特:使用抄写员发送直接消息
这是我使用 scribe 发送直接消息的代码。但它给了我无效的回应。我做错了什么？ OAuthRequest req; OAuthService s; s = new ServiceBuilde
Java 推特 API
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
android - 推特。媒体发布状态
是否可以使用 Scribe-Java 和 twitter POST Url“https://upload.twitter.com/1/statuses/update_with_media.json”上
scala - 推特 future 封锁
有人可以解释为什么 Twitter future 的行为不是异步的吗？有了这个代码 private val future: Future[String] = Future { Thread
hyperlink - 推特 Bootstrap 标签链接
我有一个使用 twitter bootstrap 设置样式的 rails 项目。在一页上，我有三个标签 #1、#2、#3。我想知道如何从另一个页面链接到特定选项卡，例如选项卡 #2。我尝试使用 an
django - 推特 Bootstrap 日期选择器不起作用
我一直在广泛寻找答案，但我似乎找不到一个有效的答案。我正在使用 Django 1.4 和 twitter boostrap 2.0.4，我正在尝试使用日期选择器(eyecon)但没有成功。当我单击输入
javascript - 发布更新(消息)推特
如何仅使用 javascript(无服务器端身份验证)将消息发布到 Twitter。例如，我有一个包含用户名、密码、文本字段和提交按钮的表单。我想在网站的后端使用它。我读过这个，http://d
php - 推特 API : Who unfollowed from me?
如何找到取消关注我的人？任何人都可以使用 Twitter API 拥有这样的 php 脚本吗？有必要将 Twitter 消息发送给那些取消订阅我的人。注意:我知道已经有特殊服务，但我需要您的简单服
image - 推特 Bootstrap 轮播大小
我正在使用 Twitter Bootstrap 为我父亲创建一个网站，除了一件事之外，它已经完成:我不知道如何: - 减少轮播宽度 - 将旋转木马居中 - 使滚动箭头仍在图像上 here is the
javascript - 推特 API 问题
我用它来获取我最新的推文所以我必须获取最新的 2 条推文，因为我将计数设置为 2，有时它只返回 1，这是为什么？最佳答案我今天实际上遇到了同样的问题，在文档中，twitter 不会在列表中返
推特 "View Summary"按钮
我在《好莱坞报道》上注意到，他们的推文中有一个“查看摘要”按钮，单击该按钮后，您可以预览其网站上的帖子，其中包含标题、摘录和预览图片。关于如何完成此任务的文档在哪里有任何线索吗？我浏览过twitte
推特 API : post on behalf of whom?
我想使用 Twitter API，以便我的程序可以发布一些推文。要使用它，我必须在开发中心注册应用程序并获取一些参数，例如“消费者 key ”、“消费者 secret ”等。然后我可以使用 REST
api - 推特 API 限制
我做了一个类似 wefollow.com 的网站。我每天晚上都在使用 Abraham Williams (abrah.am) 的类(class)来更新用户数据(关注者和推文)。但在 Twitter 更
perl - 推特 LED 时间轴
你好，我已经为 twitter 时间线编写了一个脚本，除了我不知道如何授权我的 twitter api key ，我的 led 标志只是说“错误的身份验证数据” 这是我的代码 #!/usr/bin/p

首页

博学

6Ren·AI

商城

scala - 使用 Spark 分析推特数据