איך להיות גדול טוב


תשובה 1:

אני ממליץ לך להבין תחילה את הביג דאטה ואתגרים הקשורים לביג דאטה. אז כדי שתוכל להבין איך Hadoop התגלה כפתרון לבעיות ה- Big Data האלה.

אז אתה צריך להבין איך אדריכלות Hadoop פועלת ביחס ל- HDFS, YARN & MapReduce. לאחר מכן, עליך להתקין את Hadoop במערכת שלך כדי שתוכל להתחיל לעבוד עם Hadoop. זה יעזור לך להבין את ההיבטים המעשיים בפירוט.

הלאה הלאה, קח צלילה עמוקה

מערכת אקולוגית של Hadoop

ולמד כלים שונים בתוך האקוסיסטם של Hadoop עם הפונקציות שלהם. אז, שתלמדו כיצד ליצור פיתרון מותאם בהתאם לדרישותיכם.

מה זה Big Data?

ביג דאטה הוא מונח המשמש לאוסף מערכי נתונים גדולים ומורכבים, שקשה לאחסן ולעבד אותם באמצעות כלי ניהול בסיסי נתונים זמינים או יישומים מסורתיים לעיבוד נתונים. האתגר כולל לכידת, אוצר, אחסון, חיפוש, שיתוף, העברה, ניתוח והדמיה של נתונים אלה.

הוא מאופיין ב -5 וולטים.

VOLUME: נפח מתייחס ל'כמות הנתונים ', שגדלה מיום ליום בקצב מהיר מאוד.

VELOCITY: מהירות מוגדרת כקצב בו מקורות שונים מייצרים את הנתונים מדי יום. זרימת נתונים זו מסיבית ורציפה.

שונות: מכיוון שיש מקורות רבים התורמים לביג דאטה, סוג הנתונים שהם מייצרים שונה. זה יכול להיות מובנה, חצי מובנה או לא מובנה.

ערך: הכל טוב ויפה שיש גישה לנתונים גדולים אך אם איננו יכולים להפוך אותו לערך הוא חסר תועלת. מצא תובנות בנתונים והפיק מהם תועלת.

אמיתות: אמיתות מתייחסת לנתונים בספק או בחוסר הוודאות של הנתונים הזמינים עקב חוסר עקביות בנתונים וחוסר השלמותם.

מה זה Hadoop & זה אדריכלות?

המרכיבים העיקריים של HDFS הם NameNode ו- DataNode.

NameNode

זה הדמון המאסטר שמתחזק

ומנהל את ה- DataNodes (צמתים עבדים). הוא מתעד את המטא-נתונים של כל הקבצים המאוחסנים באשכול, למשל מיקום בלוקים המאוחסנים, גודל הקבצים, הרשאות, היררכיה וכו '. הוא מתעד כל שינוי ומתרחש במטא נתונים של מערכת הקבצים.

לדוגמא, אם קובץ נמחק ב- HDFS, ה- NameNode יתעד זאת מיד ב- EditLog. הוא מקבל באופן קבוע פעימות לב ודיווח חסימה מכל ה- DataNodes באשכול כדי להבטיח ש- DataNodes חיים. זה שומר תיעוד של כל הבלוקים ב- HDFS ובאילו צמתים מאוחסנים הבלוקים האלה.

DataNode

אלה שדים עבדים אשר פועלים על כל מכונת עבדים. הנתונים בפועל נשמרים ב- DataNodes. הם אחראים על הגשת בקשות קריאה וכתיבה מהלקוחות. הם אחראים גם ליצירת בלוקים, מחיקת בלוקים ושכפול אותם בהתבסס על ההחלטות שקיבלו ה- NameNode.

לצורך עיבוד אנו משתמשים ב- YARN (שוב משא ומתן משאבים). המרכיבים של YARN הם ResourceManager ו- NodeManager.

מנהל משאבים

זהו רכיב ברמת אשכול (אחד לכל אשכול) ופועל במכונת האב. היא מנהלת משאבים ותזמון יישומים הפועלים על גבי YARN.

NodeManager

זהו רכיב ברמת הצומת (אחד בכל צומת) ופועל על כל מכונת עבדים. היא אחראית על ניהול מכולות וניטור ניצול המשאבים בכל מכולה. זה גם עוקב אחר בריאות הצומת וניהול יומן. הוא מתקשר ברציפות עם ResourceManager כדי להישאר מעודכן.

ניתן לבצע עיבוד מקביל ב- HDFS באמצעות MapReduce.

MapReduce

זהו מרכיב הליבה של עיבוד במערכת אקולוגית של Hadoop מכיוון שהוא מספק את ההיגיון בעיבוד. במילים אחרות, MapReduce היא מסגרת תוכנה המסייעת בכתיבת יישומים המעבדים ערכות נתונים גדולות באמצעות אלגוריתמים מבוזרים ומקבילים בסביבת Hadoop. בתוכנית MapReduce, Map () ו- Reduce () הן שתי פונקציות. פונקציית Map מבצעת פעולות כמו סינון, קיבוץ ומיון. אמנם צמצום הפונקציה מצטבר ומסכם את התוצאה המיוצרת על ידי פונקציית המפה. התוצאה שנוצרת על ידי פונקציית Map היא צמד ערכי מפתח (K, V) המשמש כקלט לפונקציה Reduce.

אתה יכול לעבור על הסרטון הזה כדי להבין את Hadoop ואת הארכיטקטורה שלו בפירוט.

התקן את Hadoop

צומת יחיד

ו

אשכול רב צומת

אז אתה יכול לעבור את זה

בלוג Hadoop Ecosystem

ללמוד את האקוסיסטם של Hadoop בפירוט.

אתה יכול גם לעבור על סרטון ההדרכה הזה של Hadoop Ecosystem.

לְעוֹרֵר

Apache Spark הוא מסגרת לניתוח נתונים בזמן אמת בסביבת מחשוב מבוזרת. הניצוץ כתוב בסקאלה והוא פותח במקור באוניברסיטת קליפורניה בברקלי. היא מבצעת חישובים בזיכרון כדי להגביר את מהירות עיבוד הנתונים באמצעות Map-Reduce. זה מהיר פי 100 מ- Hadoop לעיבוד נתונים בקנה מידה גדול על ידי ניצול חישובים בזיכרון ואופטימיזציות אחרות. לכן, זה דורש כוח עיבוד גבוה יותר מאשר Map-Reduce.

כפי שאתה יכול לראות, Spark מגיע עם ספריות ברמה גבוהה, כולל תמיכה ב- R, SQL, Python, Scala, Java וכו '. ספריות סטנדרטיות אלה מגדילות את האינטגרציות החלקות בתהליך העבודה המורכב. מעבר לכך, הוא גם מאפשר לקבוצות שונות של שירותים להשתלב עמו כמו MLlib, GraphX, SQL + Data Frames, שירותי סטרימינג וכו 'כדי להגדיל את יכולותיו.

אתה יכול גם לעבור על סרטון זה של שאלות ראיונות של Hadoop כדי לקבל מושג על השאלות שנשאלו בראיון ל- Hadoop.

אדוריקה מספקת רשימה טובה של סרטוני הדרכה של Hadoop. אני ממליץ לך לעבור על זה

רשימת השמעת סרטוני הדרכה של Hadoop

בנוסף ל

סדרת הבלוגים של הדרופ של Hadoop

. הלימוד שלך צריך להיות מיושר עם

הסמכת Hadoop

.


תשובה 2:

השאלה הפתוחה שלה עם תשובה פתוחה.

קודם כל זה תלוי בכמה מסירות אתה צריך ללמוד ולתרגל hadoop.

Hadoop היא טכנולוגיה חדשה ולכן אין הרבה עזרה זמינה באינטרנט אם נתקעתם בשלב כלשהו.

עכשיו אני מניח שקיבלת מסירות כדי שאגיע לעניין.

ראשית להבין כיצד פועלת מסגרת Hadoop. בכך עליכם ללמוד כיצד עובד מרכיב הליבה של Hadoop כלומר HDFS ו- Map-Reduce.

כשאנחנו לומדים c ו- c + + לפני שלומדים java, .net וכו 'ככה hadoop הוא בסיס למסגרת חדשה ופופולרית רבים כמו ניצוץ אפאצ'י, סערת אפאצ'י וכו'

קרא את 'המדריך הסופי של Hadoop' את הספר הטוב ביותר שקראתי עד כה.

ברגע שאתה מכיר את hadoop ומרגיש מעט ביטחון, הורד מכונה וירטואלית (CDH) מאתר clodera. הוא מכיל הגדרת Hadoop עליה תוכלו להתאמן.

אם ברקע שלך מתכנות, תרגל תוכניות להפחתת מפות שתוכל למצוא בקלות באופן מקוון. אם אתה לא מכיר הרבה את התכנות אז התחל עם אפאצ'י חזיר ואז אפאצ'י סקופ ואז אפאצ'י כוורת ואז אפאצ'י גוון ואז אפאצ'י oozie.

עד עכשיו תהיה בטוח מאוד בהאדופ ובמערכת האקולוגית שלו.

עכשיו התחל עם פרויקטים של הדגמה. תקבל מערכי נתונים לדוגמא רבים באינטרנט.

עַל

הדרכה מקוונת, קורסים להסמכת עסקים בטכנולוגיית IT - acadgild.com | AcadGild

אתה יכול למצוא פרויקטים רבים של הדגמה לתרגול.

תחשוב בגדול..חשוב ביג דאטה .. !!


תשובה 3:

אני מאמין שהכל מסתכם ביישום מתודולוגיה נכונה וכלים מתאימים לכל מערך נתונים / בעיה שאתה פותר. ממבט עליון, הבנה טובה של:

  • בליעה - כיצד ומהי הדרך האופטימלית להכניס נתונים ממקורות שונים ל- HDFS / HBase / NoSQL? הבנה נוספת של האופן שבו נתונים שנבלעו ייצרכו על ידי זרם הזרם
  • טרנספורמציה - באיזה כלי להשתמש וכיצד ליישם: עיבוד בזיכרון או אצווה
  • יציאה - ככל הנראה כלי שאילתות או הדמיה. איך הכי טוב לממשק: שאילתה הוגשה או שאילתת משיכה (העברת נתונים)

תשובה 4:

התייחס לאירוע זה וקבל את כל התשובות שלך הקשורות ל- BigData / Hadoop, לגמרי בחינם

השוק של בריטניה לקורסים מקוונים והדרכת IT

הולך

לארגן אירוע מקוון למבוא ל- Big Dat & Hadoop

. החלק הכי טוב הוא שכן

לגמרי בחינם!

. זה מכוון אליו

מועילים למתחילים ולמתחילים

שמחפשים לבנות קריירה בתחום זה.

יהיה הסבר מפורט על ביג דאטה ופתרונות עכשוויים לטיפול בנתונים ובמאגרי מידע עצומים

לאחר מכן תיחשף ל- Hadoop ולכלי והטכניקות שלו כמו Sqoop, Oozie, חזיר, כוורת, HBase, Cassandra. אירוע זה יכלול גם מתאר של שירותי האינטרנט של אמזון (ענן) ועוד.

בסך הכל זה יהיה כמו קורס התרסקות ב- Hadoop & Big Data שיעזור לך בהחלטות החיים החשובות שלך.

אל תחמיצו את ההזדמנות המוזהבת הזו שדורשת רק את זמנכם ושום דבר אחר

תזמונים לאירועים:

שבת 14 בינואר 2017

11:00 - 12:00 GMT

קישורים לאירוע:

אישור באמצעות פייסבוק

-

מבוא למדעי הנתונים

הרשמה לאירוע זה ב- EventBrite

-

https://goo.gl/il6cmo

מצפה להשתתפותך


תשובה 5:

המשך לתרגל את כל הקונספט הקשור ל- Hadoop. מזלג apache hadoop קוד זמין ב- github והתחל לצפות בבעיות. אם אפשר נסה לתרום. אתה יכול להתחיל לחפש שאלות על stackoverflow ולנסות לענות במידת האפשר. בהחלט זה יעזור לך להיות מפתח גדול של נתונים גדולים. קישור לבסיס קוד:

אפאצ'י / האדופ

תשובה 6:

אולי תמצא את התשובות שלך כאן .....

https://acadgild.com

הדרך הטובה ביותר להתאמן בעצמך היא הדרך הטובה ביותר, אך יכולה להיות דרך קשה אם אינך מתחום טכני, במצב זה תוכל לקחת אימון מקוון.