אינטגרציית נתונים בעידן ה BIG DATA

אינטגרציית נתונים בעידן ה BIG DATA משה מוזס
_____________________________

רקע :

אז למרות שהעולם שייך לצעירים, אני בטוח שרובכם זוכרים את הימים ששמרנו נתונים על דיסקט 1.4mb שבעצמו היה שדרוג של גרסת ה720kb שבעצמו שדרוג של הדיסקט השחור הגדול יותר (בקוטר ¼5 אינץ') שהכיל קיבולת של 360kb ... (ולזקנים שקופצים עם "כרטיסיות הניקוב, ה punch cards, בואו לא נלך כל כך רחוק...) מה שמשעשע, זה שהיינו משוכנעים שזה המון, מה לא שמרנו שם - גיבויים, תוכנות, מדבקות של "100 משחקים" התנוססו בצבעים וכולם היו מרוצים.... בקצב דומה גם התייחסנו וצפינו בגדילה של מהירויות המעבדים, הזיכרונות ושאר טכנולוגיות, כאשר מה שהיה נראה בזמנו כדמיוני, כבר מזמן הפך סטנדרטי, והנפחים ממשיכים לגדול ולגדול (היום כבר מדברים ב exabytes) כאשר ברוב המקרים, הסיבה העיקרית היא לא צורת העיבוד שכמעט ולא השתנתה במשך השנים, לפחות בכל הקשור למידע, אלה בכמויות הנתונים .

BigData :

כמות הנתונים עמם ארגונים נאלצים להתמודד גדלה בכל שנה, החברות ממשיכות ללכוד טריליוני בייטים של מידע על הלקוחות שלהם,על הספקים, על פעולות תפעול, וכו' , יחד עם זאת בתקופה שזה כבר יותר מאקווריום גדול שהגדולים אוכלים את הקטנים, אלה בתקופה שהטובים מפנים את מקומם למצוינים, וזה אומר שהרבה מאוד חברות רוכשות חברות אחרות ואו מתמזגות בכל שני וחמישי שבאופן טבעי יגדילו משמעותית את היקפי המידע שארגונים ממוזגים יצטרכו להתמודד עמם, ולתת מענה לאוכלוסייה גדולה יותר של משתמשים, ויחד עם האירועים לספק מענה בצד משאבי אכסון וניהול הנתונים שיצליח להתמודד עם כמויות המידע.
לתופעת זו יש כבר שם מוכר, שמופיע אצל כל מנמ"ר בראש סדר העדיפויות וימשיך להעסיק באופן אינטנסיבי לפחות בתקופה הקרובה :
בז'רגון המקצועי קוראים לזה BIGDATA, וכדי שנבין במה מדובר, בואו נדבר קצת במספרים :

אז בעידן של חברות כמו Google שמעדכנות למעלה 23petabytes של נתונים (חדשים) מידי יום, מערכות מסחר כמו זאת שפועלת בוול סטריט ומבצעת מאות פעולות (transactions) בשנייה אחת... ואני אפילו לא רוצה להזכיר "מפלצות מידע" כמו Amazon, Facebook ו-Youtube שמטפלות במיליוני משתמשים, petabytes של שטחי אכסון ואלפי טרנזקציות בשניה . אז על מה כל הבזזז בשוק סביב ה "Big Data" - פשוט מאוד - שזה הגיע גם אליכם, גם לארגונים בינוניים ואו גדולים במונחים מקומיים שפתאום נדרשים להתמודד עם דרישות מאתגרות ולגמרי לא פשוטות בכל הקשור לניהול כמויות מידע מפלצתיות .
אי אפשר "לקמט" את המושג BigData למספרים, לא ברמת גודל האכסון ולא ברמת כמות הרשומות, מכיוון שכמו שכבר הבנתם מאווירת המאמר, העולם לא מפסיק להתפתח, ומה שנחשב גדול היום ייחשב קטן מחר, ולכן ההתייחסות צריכה להיות כללית יותר, אז הייתי מנסח זאת כך: BigData הוא מצב שמערכי הנתונים מאיימים על קצה היכולת של מעטפת הביצועים (במקרה שלנו מסדי הנתונים) ואו של כלי התוכנה תהליכי אינטגרציית הנתונים ללכוד,לאחסן,לנהל ולנתח אותו בשלמותו ולפי צורכי הצד העסקי של הארגון (ולא המגבלות הטכנולוגיות) הגודל פיזי יכול להשתנות ממגזר למגזר, אבל כבר היום ניתן לראות איזורי DATA במגזרים רבים שינועו בין כמה עשרות טרה לאלפי טרהבייטים ואו עשרותמאוד מיליוני רשומות אם אתם מעדיפים לספור את זה ככה .

האתגר :

האתגר של ארגוני האנטרפרייז בארץ וגם של ארגונים בסדר גודל בינוני שעיקר פעילותם קשורה למידע (מבוססי אינטרנט) היא הטיפול בכמויות אדירות של נתונים, אל מול דרישות מהצד העסקי של הארגון לקבל את המידע בזמן, לעוס, שלם, ומכל מקורות המידע המסורתיים (כל המערכות התפעוליות לרבות ERP,CRM,בילינג וכו') והחדשים יחסית (כולל מובייל,אינטרנט, אימיילים, רשתות חברתיות כמו פייסבוק, לינקדין, טוויטר, שיתופי פעולה עם ספקים ואו ארגונים אחרים, אימיילים, מערכות לניהול קמפיינים חיצוניות, תוכנות מסרים, ולפעמים אפילו קבצי וידאו ואודיו) בקיצור: יותר מידי מידע בכדי שהטכנולוגיות הסטנדרטיות לניהול מידע ידעו לטפל בו בהצלחה, כאשר ה IT לא רק מאותגר טכנולוגית, אלה גם חייב לייצר פתרון יעיל, אמין, עם חשיבה לטווח ארוך... וחשוב לא פחות (ולעתים יותר) : בעלויות מתאימות לתקציב, גם אם התקציב קטן יחסית כשמדובר בחברות SMB ואו מחלקות עם תקציבים "אנורקסים" אך מול הדרישות . למי זה מדבר - לכל ארגון שיש לו מידע רב, מחברות ביטוח, בנקים, כרטיסי אשראי,טלקום, ,טכנולוגיה,בילינג,מגזר ציבורי,בטחוני וכמובן אתרי אינטרנט (Online-Retailers) שמפנטזים לנתח את תעבורת הלקוחות שלהם (זוכרים? ClickStream) אך לא מצליחים להתחיל בכלל להתמודד עם כמויות המידע המטורפות ... וכמובן החברות שפשוט משדרגות את הפעילות שלהם ע"י שימוש בנתונים עד למצב של ניתוח מתוחכם שיכול לשפר באופן משמעותי את תהליכי קבלת ההחלטות ע"י חשיפת תובנות, מגמות, ואפילו מזעור סיכונים, וקבלת החלטות אוטומטיות לדוגמא : ניהול ספי מלאי (מלאי מינימום ומקסימום) ברשת קמעונאית, ואפילו תמחור בתגובה לאירועים, או ניהול מועדון לקוחות שיאפשר שיווק ישיר ללקוח שזוהה כמתאים לפרופיל של סגמנט מסוים לפי פרמטרים שהוגדרו מראש, שלא נדבר על מודולים שלמים שיכולים לחזות שווי לקוח (לא רק לפי מה שרכשתם, אלה גם לפי תקופת המנויתחזוקה שלכם, גובה ותמהיל השימוש במערכות, ואפילו כמות השיחות שביצעתם למוקד שירות הלקוחות) וכמו כן מודלים לחיזוי נטישת לקוח,ולכן בעולם של כל כך הרבה נתונים, אין ברירה אלה לצעוד לכיוון של "מידע על פי דרישה",
והמטרה היא לא רק לשמור את כל המידע הרב, אל לדעת לנתח ולדאוג שהמידע יהיה מעודכן, שלם, מקובל, משמעותי, ורלבנטי למקבלי ההחלטות. וכאן הארגונים נדרשים להכין עצמן ל"גלי המידע" גם במדינה שחלק נכבד מהנתונים שלה עוד יושב בסביבות MainFrame המסורתיות .

פתרונות אינטגרציית נתונים :

השוק מציע פתרונות, רובם יקרים - של מותגי תוכנה/חומרה. לעיתים אנו בוחרים פתרון של חברה גדולה כי "התרגלנו" לפעול בדרך מסוימת בתחום מסוים. אלברט איינשטיין אמר פעם, כי "לא נוכל לפתור בעיות באמצעות אותה צורת חשיבה שהשתמשנו כשיצרנו אותן". המסקנה היא כי חייבת להיות כאן חשיבה חדשה יצירתית וחדשנית בתחום. נידרש לפתרון בעל יכולות מתקדמות הכולל גמישות מוגברת ברמת האפשרות לדעת להתמודד עם כל סוג מידע וכל גודל של מידע, פשטות, יחס טוב בעלות אל מול ביצועים ופתרון מקצה לקצה. כיום אוסף הטכנולוגיות וארכיטקטורות הפתרונות לאתגרי ה BigData מגוונת, כאשר מה שמשותף לכל הפתרונות, הוא המענה לצרכים יחסית זהים של כל הדורשים :
לאסוף (או כפי שמכונה בעולם המידע "לגזור") מידע רלוונטי ואיכותי רב ממספר מקורות מידע תוך יכולת זיהוי וסינון המידע, אחזור, המרה, עיבוד (צבירה,סיכום,מיון,מיזוג... וכו') וזאת בכדי להביא ליכולת ניתוח מהירה ומקיפה ככל שניתן בכלי ה BI עבור מנהלים אנליטים ושאר בעלי עניין רלוונטים .

ניתן לחלק את הפתרונות בעולם אינטגרציית הנתונים ל 3 עיקריים שבהם נתרכז במאמר זה :

------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -

1. כלי ה ETL

מדובר בכלי פיתוח ויזואליים (WorkFlow מונחה אובייקטים) שנועדו להעביר כמויות גדולות של נתונים מסביבה אחת לאחרת, תוך כדי עיבודם, בד"כ בעיבוד אצווה . ומכאן מגיע השם ETL :

Extract (מקורות) : ברוב המקרים החלק של המקור הוא כמובן המידע המאוכסן במערכות התפעוליות של הארגון (שבבמסגרת התהליך ברוב המקרים משוכפלות חלקית ל Stage באמצע כדי לא להפריע לפעילות השוטפת) כאשר מספקים קישוריות למגוון מקורות מידע ופלטפורמות מחשוב תוך נטרול ההבדלים ביניהם בסיסי נתונים כמו Oracle, SQL Server, קבצי טקסט, קבצי XML, קבצי Excel, ולפעמים להיות למאותגרים לשלוף נתונים ממערכות MainFrame, ו - SAP .

Transform (עיבודים) : העיבודים יכולים להיות כל אגריגציה,סינון,סיכום,צבירה,מיון,ניקוי וכו'

ביצוע המניפולציות בנתונים הוא החלק הקריטי והעיקרי של כלי ה ETL, מה שבשנים האחרונות ובעקבות כמויות הנתונים הרבות הפך להיות בעיה אמיתית לכלי ה ETL המובילים, ולמעשה נותר ללא מענה אמיתי, מה שגרם לתופעה מעניינת בעולם אינטגרציית הנתונים, ולתופעה הזאת קוראים ELT ... שם חדש למתודולוגיה ישנה, שחזרה לאחר התבססות כלי ה-ETL בשוק ה-IT. השיטה מתבססת על שינוע מידע ללא עיבוד ממערכת המקור לאזור עיבוד במערכת היעד, ואו בשלב ביניים נוסף, בדרך כלל RDBMS. עיבוד המידע מתבצע על ידי תהליכים ייעודיים המופעלים לאחר הטעינה - בדרך כלל Stored Procedures ש"לועסות" את המידע על בסיס הנתונים עצמו, ומחזירות אותו מוכן להמשך הפעילות .
היתרון : שיפור משמעותי בביצועים (יחסית לביצוע דומה ע"י כלי ה ETL עצמם)
החסרון : בסיס הנתונים לא נועד לסוג כזה של פעילות, מה שגורם לו לעומס עיבוד לא סביר, וכתוצאה נדרשים שדרוגי חומרה, ובחלק מהמקרים פשוט נאלצים ליצור Stage נוסף לצורך הזה בלבד, ובתרגום חופשי לשפה אוניברסאלית יותר: זה עולה כסף, ולפעמים לא מעט, כמו כן דורש הצורך בניהול סביבת יישום נפרדת שמבוססת על Custom Code שכתב בחור בשם "וולדי" (:>) שכבר לא עובד כאן יותר.... , ובקיצור - לא יעיל .

Load (יעדים) : היעד הוא בדרך כלל ה DWH (data warehouse) שהוא בסיס נתונים המרכז שכולל נתונים מסוכמים,"לעוסים" ומקובלים ממערכות המידע השונות בארגון,ועל ידי כך מאפשר להפיק דוחות ניהוליים הפונים למקור אחד, מקור שנתוניו מקובלים ומהווה "אמת אירגונית" אחת בשעה שהמערכות השונות לא תמיד מסונכרנות זו עם זו .

השחקניות החזקות בעולם אינטגרציית הנתונים (בקטיגוריית ה ETL לפחות) הן :
· אינפורמטיקה (PowerCenter)
· IBM (עם DataStage)
· אינפורמטיקה (עם SSIS)

בשוק של 800 מיליון דולר הכנסות (רק מתוכנה) כל הספקים הגדולים מנסים לייצר פתרונות, אך בחרנו להתמקד ב 3 המובילים באזורינו , כאשר זנחנו פתרונות מוכרים בעולם כמו פתרונות Trillium, SAP, DataFlux, ואפילו הניסיונות של Oracle עם ה Warehouse Builder(OWB) כמו כן, על מנת להישאר אובייקטיבים, לא נמליץ כאן על כלי זה או אחר, גם לא ניכנס להשוואות עמוקות מידי, אבל כן נרצה להדגיש מספר פרמטרים (טוב, בואו נגביל את זה ל 10) שחשובים למקבל ההחלטות לגבי פתרון ה ETL שמתאים עבור הארגון אותו הוא מייצג

כולם טובים

הרגלים

עלות

חדשנות

תמיכה

ניסיון

תיעוד

MetaData

פונקציונליות

ביצועים

------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -

2. ה 'קופסאות'

הטרנד החדש בעולם ניהול ואכסון הנתונים, קופסאות הענק (Appliances) וגם במקרה זה כל החברות הרלוונטיות לתחום מעוניינות להצטרף לחגיגת "התפוצצות המידע",לנגוס ביס מכובד מהעוגה, ולבסס עצמן כפורצות דרך וכמובילות בתחום, וכך בתקופה האחרונה משחררות פתרונות "מכונות ייעודיות", פתרון משולב חומרה + תוכנה עם הנדסת אנוש משותפת במטרה לנצח את אתגר "ים הנתונים" הגועש, השוק כבר מציע פתרונות של אורקל,HP,IBM,SAS,EMC (שרכשה את GreenPlum) נט אפ, Teradata, ואפילו SAP ששחררה לעולמנו את "חנה" (בטוח שנחשפתם לפרסומת "האם אתה מעוניין לנתח כמויות אדירות של נתונים פי 3600 מהר יותר?")

הטענה המרכזית (וההגיונית) היא שבניגוד למידע הטבלאי שליווה אותנו עד היום, מעבר לכמויות המידע הענקיות, גם סוג המידע מגוון יותר כיום, זה לא רק טבלת נתונים עם שורות ועמודות... יש לנו גם מידע שמבוסס על וידאו, סאונד, אימיילים, תמונות, רשתות חברתיות וכו'
ברוב המקרים, החברות יציעו לכם פתרון כולל ומקיף שיכלול את כל חלקי הפתרון הנדרש ובאוריינטציה משופרת ומתקדמת, שמלבד החומרה עצמה, מציעה את שאר הצרכים לרבות: איסוף הנתונים, ארגון ועיבוד הנתונים בשיטות המתקדמות ביותר (in Memory ,Parallel Column-Based וכו'), ועד לשלבי האכסון ב DB...כל זאת שוב, בטכנולוגיה המתקדמת שהשוק מציעה כולל שילוב עם מחשוב ענן (שילוב חם ומתבקש) טכנולוגיית Hadoop, וכלים אנליטיים מתקדמים מובנים .

יתרונות :

חסרונות :

------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -

3. ETL 2.0 ("לצאת מהקופסה")

קונספט חדש ומרענן שהומצא ע"י חברת syncsort, שועל וותיק בעולם ה DI עוד מלפני כמה עשורים טובים ששולבו (ולמעשה משולבים עד היום) בכל סביבת mainframe במטרה לייעל ולזרז תהליכים בתצורה חדשנית ומתוחמת לטיפול בכל הקשור ל Big Data .
קוראים לפתרון הזה DMExpress, כאשר מדובר במאיץ ביצועים טורבו לסביבות ה ETL הקיימות, שיודע "ללעוס את הנתונים" (עיבוד מכל הסוגים) מהר יותר מכל כלי אחר בשוק . הרי מה שמתרחש כיום ברוב הארגונים הוא שיש כבר מתודה, ויש כבר כלי ETL (ברוב המקרים מתקדם פונקציונלית ומעניק פתרון מלא לכל צורכי הארגון) הבעיה שנותרה להן להתמודד מולו היא כמות הנתונים וחלון הזמן שכבר לא ממש מספיק לביצוע כל המשימות .
אז מה עושים? מקצרים את התהליכים ע"י מאיץ תהליכי ה ETL המתקדם שיגרמו לתהליכים שלכם לסיים מהר יותר, וכך לאפשר ניתוח של יותר נתונים (כיום חלק מהארגונים מנתחים את הנתונים רק על 20%-30% מהנתונים מכיוון שלא מצליחים לנתח את כל המידע בזמן) ואפילו ייאפשר הרצת אותם התהליכים בתדירות ביצוע נמוכה יותר, זאת אומרת שתהליך חודשי יכול להפוך להיות שבועי, ותהליך שבועי יכול להפוך יומי, ויומי יכול להתמודד על להפוך להיות תהליך Near ONLINE ועל ידי כך להוריד סיכונים תפעוליים, ולאפשר קבלת תמונה אמינה יותר לקבל ההחלטות ממידע הקרוב יותר לזמן ההתרחשות האמיתי. .
הכלי הזה מצליח להחזיר את האדום ללחיים של הארגון, ושל כלי ה ETL שכבר ויתרו על ה T...
כאשר מזהה את "צברי הבקבוק" בתהליך הקיים, מתרגם אותם (כמעט אוטומטית) לתהליכים מבוססי המנוע הסופר חכם מבוסס אלגוריתמים, ריצה in memory, ושאר פטנטים שזוכים להכרה בכל העולם ה DI. ולמעשה משתלב באופן טבעי כ Add ON סטייל "אינסטלטור" שמטפל בחלקים הכואבים תוך שימוש במיטב הטכנולוגיה המתקדמת בתחום דחיסת הנתונים, עם אינטגרציה הדוקה עם Hadoop ושאר מגמות בתחום .

יתרונות :

הקטנת חלון זמן העיבוד עד לזמני ביצוע מהירים פי 10 ויותר וכתוצאה מכך זירוז דרמטי של תהליכי ETL ומשימות בסביבת ה Data Warehousing BI

סרטון קצר ומעניין (ובעברית) שמתאר את הקונספט של ה ETL 2.0 באופן מעניין :

>>>>> לצפייה לחץ כאן <<<<<

Moshe Mozes - Product Manager

NessPRO
Ness Technologie
Building #10, Atidim, Tel Aviv 58180 Israel
Tel: +972.504067008 | Fax: +972.37693601
Moshe.Mozes@ness.com | www.ness.com