• חדשות_באנר

שֵׁרוּת

מנגנון ניקוי נתונים של Spark Streaming
(I) DStream ו-RDD
כידוע, חישוב Spark Streaming מבוסס על Spark Core, והליבה של Spark Core היא RDD, כך ש-Spark Streaming חייב להיות קשור גם ל-RDD.עם זאת, Spark Streaming לא מאפשר למשתמשים להשתמש ב-RDD ישירות, אלא מפשט סט של מושגי DStream, DStream ו-RDD הם מערכות יחסים כוללניות, אתה יכול להבין את זה כדפוס הקישוט ב-Java, כלומר, DStream הוא שיפור של RDD, אבל ההתנהגות דומה ל-RDD.
ל-DStream ול-RDD יש כמה תנאים.
(1) יש פעולות טרנספורמציה דומות, כגון map, reduceByKey וכו', אבל גם כמה ייחודיות, כגון Window, mapWithStated וכו'.
(2) לכולם יש פעולות פעולה, כגון foreachRDD, ספירה וכו'.
מודל התכנות עקבי.
(ב) הצגת DStream ב-Spark Streaming
DStream מכיל מספר מחלקות.
(1) מחלקות מקור נתונים, כגון InputDStream, ספציפיות כמו DirectKafkaInputStream וכו'.
(2) כיתות המרה, בדרך כלל MappedDStream, ShuffledDStream
(3) מחלקות פלט, בדרך כלל כמו ForEachDStream
מהאמור לעיל, הנתונים מההתחלה (הקלט) ועד הסוף (הפלט) נעשים על ידי מערכת DStream, מה שאומר שהמשתמש בדרך כלל לא יכול ליצור ישירות ולתפעל RDDs, מה שאומר של-DStream יש את ההזדמנות והמחויבות להיות אחראי על מחזור החיים של RDDs.
במילים אחרות, ל-Spark Streaming ישניקוי אוטומטיפוּנקצִיָה.
(iii) תהליך יצירת RDD ב-Spark Streaming
זרימת החיים של RDDs ב-Spark Streaming היא גסה כדלקמן.
(1) ב-InputDStream, הנתונים שהתקבלו עוברים טרנספורמציה ל-RDD, כגון DirectKafkaInputStream, שיוצר את KafkaRDD.
(2) ואז באמצעות MappedDStream והמרת נתונים אחרים, הזמן הזה נקרא ישירות RDD התואם לשיטת המפה להמרה
(3) בפעולת מחלקת הפלט, רק כאשר ה-RDD חשוף, אתה יכול לתת למשתמש לבצע את האחסון המתאים, חישובים אחרים ופעולות אחרות.