د سپارک سټریمینګ ډیټا پاکولو میکانیزم
(I) DStream او RDD
لکه څنګه چې موږ پوهیږو، د سپارک سټریمینګ محاسبه د سپارک کور پر بنسټ والړ ده، او د سپارک کور اصلي برخه RDD ده، نو د سپارک سټریمینګ باید د RDD سره هم تړاو ولري.په هرصورت، سپارک سټریمینګ کاروونکو ته اجازه نه ورکوي چې مستقیم RDD وکاروي، مګر د DStream مفاهیمو سیټ خلاصوي، DStream او RDD ټول شموله اړیکې دي، تاسو کولی شئ دا په جاوا کې د سینګار نمونې په توګه پوه شئ، دا دی، DStream د RDD وده ده، مګر چلند RDD ته ورته دی.
DStream او RDD دواړه ډیری شرایط لري.
(1) د ورته بدلون کړنې لري، لکه نقشه، reduceByKey، او داسې نور، مګر ځینې ځانګړي، لکه کړکۍ، نقشه ویټ سټیټ، او نور.
(2) ټول د عمل کړنې لري، لکه foreachRDD، شمېرنه، او داسې نور.
د پروګرام کولو ماډل مطابقت لري.
(ب) په سپارک سټریمینګ کې د DStream پیژندنه
DStream څو ټولګي لري.
(1) د معلوماتو سرچینې ټولګي، لکه InputDStream، ځانګړي لکه DirectKafkaInputStream، او داسې نور.
(2) د تبادلې ټولګي، په ځانګړې توګه MappedDStream، ShuffledDStream
(3) د محصول ټولګي، په ځانګړې توګه لکه ForEachDStream
له پورته څخه، ډاټا د پیل (انپوټ) څخه تر پایه (آؤټ پوټ) د DStream سیسټم لخوا ترسره کیږي، پدې معنی چې کاروونکي معمولا نشي کولی مستقیم RDDs تولید او سمبال کړي، پدې معنی چې DStream فرصت او مکلفیت لري. د RDDs د ژوند دورې لپاره مسؤل.
په بل عبارت، سپارک سټریمینګ یو لرياتوماتیک پاکولفعالیت
(iii) په سپارک سټریمینګ کې د RDD د تولید پروسه
په سپارک سټریمینګ کې د RDDs ژوند جریان په لاندې ډول دی.
(1) په InputDStream کې، ترلاسه شوي ډاټا په RDD بدلیږي، لکه DirectKafkaInputStream، چې KafkaRDD تولیدوي.
(2) بیا د MappedDStream او نورو معلوماتو تبادلې له لارې، دا وخت په مستقیم ډول د RDD په نوم یادیږي چې د تبادلې لپاره د نقشې میتود سره مطابقت لري
(3) د محصول ټولګي عملیات کې، یوازې کله چې RDD ښکاره شي، تاسو کولی شئ کاروونکي ته اجازه ورکړئ چې اړونده ذخیره، نور حسابونه، او نور عملیات ترسره کړي.