在本章中,我們將討論如何將Apache Kafka與Spark Streaming API集成。
Spark Streaming API支持實(shí)時(shí)數(shù)據(jù)流的可擴(kuò)展,高吞吐量,容錯(cuò)流處理。 數(shù)據(jù)可以從諸如Kafka,F(xiàn)lume,Twitter等許多源中提取,并且可以使用復(fù)雜的算法來(lái)處理,例如地圖,縮小,連接和窗口等高級(jí)功能。 最后,處理的數(shù)據(jù)可以推送到文件系統(tǒng),數(shù)據(jù)庫(kù)和活動(dòng)儀表板。 彈性分布式數(shù)據(jù)集(RDD)是Spark的基本數(shù)據(jù)結(jié)構(gòu)。 它是一個(gè)不可變的分布式對(duì)象集合。 RDD中的每個(gè)數(shù)據(jù)集劃分為邏輯分區(qū),可以在集群的不同節(jié)點(diǎn)上計(jì)算。
Kafka是Spark流式傳輸?shù)臐撛谙鬟f和集成平臺(tái)。 Kafka充當(dāng)實(shí)時(shí)數(shù)據(jù)流的中心樞紐,并使用Spark Streaming中的復(fù)雜算法進(jìn)行處理。 一旦數(shù)據(jù)被處理,Spark Streaming可以將結(jié)果發(fā)布到另一個(gè)Kafka主題或存儲(chǔ)在HDFS,數(shù)據(jù)庫(kù)或儀表板中。 下圖描述了概念流程。
現(xiàn)在,讓我們?cè)敿?xì)了解Kafka-Spark API。
它表示Spark應(yīng)用程序的配置。 用于將各種Spark參數(shù)設(shè)置為鍵值對(duì)。
SparkConf
類(lèi)有以下方法 -
set(string key,string value) - 設(shè)置配置變量。
remove(string key) - 從配置中移除密鑰。
setAppName(string name) - 設(shè)置應(yīng)用程序的應(yīng)用程序名稱。
get(string key) - get key
這是Spark功能的主要入口點(diǎn)。 SparkContext表示到Spark集群的連接,可用于在集群上創(chuàng)建RDD,累加器和廣播變量。 簽名的定義如下所示。
public StreamingContext(String master, String appName, Duration batchDuration, String sparkHome, scala.collection.Seq<String> jars, scala.collection.Map<String,String> environment)
主 - 要連接的群集網(wǎng)址(例如mesos:// host:port,spark:// host:port,local [4])。
appName - 作業(yè)的名稱,以顯示在集群Web UI上
batchDuration - 流式數(shù)據(jù)將被分成批次的時(shí)間間隔
public StreamingContext(SparkConf conf, Duration batchDuration)
通過(guò)提供新的SparkContext所需的配置創(chuàng)建StreamingContext。
conf - Spark參數(shù)
batchDuration - 流式數(shù)據(jù)將被分成批次的時(shí)間間隔
KafkaUtils API用于將Kafka集群連接到Spark流。 此API具有如下定義的顯著方法 createStream
。
public static ReceiverInputDStream<scala.Tuple2<String,String>> createStream( StreamingContext ssc, String zkQuorum, String groupId, scala.collection.immutable.Map<String,Object> topics, StorageLevel storageLevel)
上面顯示的方法用于創(chuàng)建從Kafka Brokers提取消息的輸入流。
ssc - StreamingContext對(duì)象。
zkQuorum - Zookeeper quorum。
groupId - 此消費(fèi)者的組ID。
主題 - 返回要消費(fèi)的主題的地圖。
storageLevel - 用于存儲(chǔ)接收的對(duì)象的存儲(chǔ)級(jí)別。
KafkaUtils API有另一個(gè)方法createDirectStream,用于創(chuàng)建一個(gè)輸入流,直接從Kafka Brokers拉取消息,而不使用任何接收器。 這個(gè)流可以保證來(lái)自Kafka的每個(gè)消息都包含在轉(zhuǎn)換中一次。
示例應(yīng)用程序在Scala中完成。 要編譯應(yīng)用程序,請(qǐng)下載并安裝 sbt
,scala構(gòu)建工具(類(lèi)似于maven)。 主要應(yīng)用程序代碼如下所示。
import java.util.HashMap import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, Produc-erRecord} import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.spark.streaming.kafka._ object KafkaWordCount { def main(args: Array[String]) { if (args.length < 4) { System.err.println("Usage: KafkaWordCount <zkQuorum><group> <topics> <numThreads>") System.exit(1) } val Array(zkQuorum, group, topics, numThreads) = args val sparkConf = new SparkConf().setAppName("KafkaWordCount") val ssc = new StreamingContext(sparkConf, Seconds(2)) ssc.checkpoint("checkpoint") val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1L)) .reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2) wordCounts.print() ssc.start() ssc.awaitTermination() } }
spark-kafka集成取決于Spark,Spark流和Spark與Kafka的集成jar。 創(chuàng)建一個(gè)新文件 build.sbt
,并指定應(yīng)用程序詳細(xì)信息及其依賴關(guān)系。 在編譯和打包應(yīng)用程序時(shí), sbt
將下載所需的jar。
name := "Spark Kafka Project" version := "1.0" scalaVersion := "2.10.5" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.0" libraryDependencies += "org.apache.spark" %% "spark-streaming" % "1.6.0" libraryDependencies += "org.apache.spark" %% "spark-streaming-kafka" % "1.6.0"
運(yùn)行以下命令以編譯和打包應(yīng)用程序的jar文件。 我們需要將jar文件提交到spark控制臺(tái)以運(yùn)行應(yīng)用程序。
sbt package
啟動(dòng)Kafka Producer CLI(在上一章中解釋),創(chuàng)建一個(gè)名為 my-first-topic
的新主題,并提供一些樣本消息,如下所示。
Another spark test message
運(yùn)行以下命令將應(yīng)用程序提交到spark控制臺(tái)。
/usr/local/spark/bin/spark-submit --packages org.apache.spark:spark-streaming -kafka_2.10:1.6.0 --class "KafkaWordCount" --master local[4] target/scala-2.10/spark -kafka-project_2.10-1.0.jar localhost:2181 <group name> <topic name> <number of threads>
此應(yīng)用程序的示例輸出如下所示。
spark console messages .. (Test,1) (spark,1) (another,1) (message,1) spark console message ..
更多建議: