עקרונות מחסני נתונים וכריית נתונים - DWH AND DATA MINING PRINCIPLE
דף הבית  >>  >>  הרשם  |  התחבר
מאמרים

עקרונות מחסני נתונים וכריית נתונים - DWH AND DATA MINING PRINCIPLE 

מאת    [ 26/05/2011 ]
מילים במאמר: 1278   [ נצפה 3460 פעמים ]

 
 

מחסני נתונים מבוא

ארגונים כיום, מעצם המצאם בעולם המודרני, הדינאמי והתחרותי, מתמודדים עם צורך יומיומי בקבלת החלטות אפקטיביות בזמן אמת.

המגוון העצום של מוצרים ושירותים הנגישים ללקוחות, ריבוי המתחרים, ולבסוף הטכנולוגיה,   גורמים לארגונים לצורך בהתייעלות ושינויים מתמידים.

כתוצאה מכך, נוצר הצורך לספק לאותם ארגונים, מלבד מערכות המחשוב התפעוליות הקיימות, גם "מערכות תומכות החלטה" עבור הדרג הניהולי, הוא דרג מקבלי ההחלטות.

על אותן מערכות להוות כלי עזר למנהל ע"י איסוף נתונים השמורים במערכות התפעוליות השונות בארגונו, ארגונם על פי לוגיקה עסקית לצורך הצגתם למנהל על פי דרישה עסקית מוגדרת. מדובר בכלי ניהולי חשוב, המאפשרת    למנהל לקבל  החלטות מושכלות על סמך מידע מהימן, לוגי, רלוונטי ובזמן קצר.

תוצרים לדוגמא: דוחו"ת סטטיסטיים, גילוי וניתוח מגמות, מידע רוחבי לגבי ישות וכד'.

 

 

הגדרות

קיימות מספר הגדרות רווחות למחסן הנתונים. נתמקד בשתיים:

 

1)     "מחסן הנתונים (DWH) מוגדר כאוסף נתונים ייעודיים ומשולבים, מאורגנים לפי נושא, בעלי עומק היסטורי ושאינם מתעדכנים, אשר מיועדים לתמוך בתהליכי קבלת החלטות"

 

נסביר את הנקודות החשובות שמובאות בהגדרה תמציתית זו:

·         'אוסף נתונים ייעודיים' –שהנו נפרד משאר המערכות / מאגרי המידע בארגון.

·         'ומשולבים' – הנתונים מגיעים ממקורות רבים ושונים במהותם ולעתים גם בתשתית הטכנולוגית שלהם.

·         'ארגון לפי נושא' – אינם מאורגנים לפי יישומים טכנולוגיים, אלא לפי נושא עסקי.

·         'עומק היסטורי' – נרחב יותר משל המערכות התפעוליות, שאינן נדרשות לשמירת היסטוריה בד"כ לתפקודן השוטף.

·         'אינם מתעדכנים' – נתון שנשמר אינו משתנה עוד, על מנת לשקף מצב מדויק לזמן נכונות מסוים. עדכון מחסן נתונים יבוצע ע"י הוספת מנות נתונים באופן תקופתי.

·         'מיועדים לתמוך בתהליך קבלת החלטות' – זו כאמור מטרת העל של מחסן הנתונים.

 

2)     "מחסן הנתונים (DWH) הוא תהליך קצה לקצה המארגן נתונים שמקורם במספר יישומים תפעוליים שונים, בהתאם למימד הזמן ובהתאם לנושאים בעלי משמעות למקבלי ההחלטות. בגלל ההיבט התהליכי של, מקובל לקרוא לתהליך זה בשם 'מחסון נתונים'(Data Warehousing)"

 

הגדרה זו משקפת את אותם העקרונות של מקורות שונים, היסטוריה, מיקוד עסקי, וכו', כמו בהגדרה הראשונה, אך תוך התמקדות בצד התהליכי של העניין, ולא הסטטי.

 

אם כן, מחסן הנתונים הוא התשתית והאמצעי להשגת המטרה של תמיכה בהחלטות בארגון.

המחסן מאגד בתוכו את כל הנתונים הקיימים במערכות התפעוליות השונות, ומארגנם בצורה מסודרת, פשוטה ונוחה לשליפת המידע העסקי המבוקש.

לצורך עדכון המחסן משתמשים בטכניקה של הוספת 'מנות' של נתונים, לרוב גדולות מאד, אחת לתקופה ולא בעדכון שוטף. הנתונים אינם 'נדרסים' ונשמרים לאורך זמן רב בכדי לאפשר תחקור מידע אפקטיבי.

 

 

שיקולים מרכזיים בעיצוב מחסן נתונים

כאשר אנו באים לבחון ולעצב מחסן נתונים, עלינו לקחת בחשבון מספר שיקולים שישפיעו באופן ישיר על החלטות העיצוב שלנו.

 

1.      נוחות משתמש- משתמשי מחסן הנתונים, פועלים ישירות על בסיס הנתונים, ועל כן יש לעצבו כן שיהיה פשוט, נגיש וידידותי למשתמש. עקרון זה נחשב לשיקול החשוב ביותר.

2.      ביצועים- במחסני נתונים נמצא נפח מידע רב מאד, העלול לגרום לזמן ריצה ארוך של שאילתות. ניתן להשתמש בטכניקות עיצוב שונות על מנת להקל ולפשט את פעילות השאילתות ולאפשר ביצועים מהירים.

3.      זמן טעינת נתונים- טעינת נתונים למחסן הנתונים מתבצעת בשיטת המנות, באופן שבכל טעינה  מצויות כמויות גדולות מאד של נתונים. הדבר מכביד על פעולת הטעינה ומאט אותה, אך זמן טעינה הוא מוגבל ולכן יש להתחשב בבעיה בעת עיצוב מחסן הנתונים.

4.      נירמול- נירמול נתונים היא טכניקה חשובה מאין כמותה בבסיסי נתונים, אך איננה מהווה יתרון כאשר אנו מדברים על מחסן נתונים.

נירמול נתונים במחסן יסתור לרוב את עיקרון נוחות המשתמש עקב מורכבות ההבנה של המידע. נירמול גם יפגע בעקרון מהירות הביצועים, עקב הצורך בפניה לטבלאות רבות, שנוצרות בתהליך הנרמול, עבור כל שאילתא.

נירמול גם גורם לטבלאות לקשיחות מסויימת, שאיננה מתאימה לאופיו הדינאמי של ארגון, המשתקף במחסן הנתונים שלו.

 

ארכיטקטורות מחסן הנתונים

 

קיימות מספר ארכיטקטורות עקרוניות של מחסני נתונים, כל אחת מתאימה לקהלי ייעד וצרכים מעט שונים. נביא כאן הסבר קצר לכל ארכיטקטורה.

כמובן שאין סוף לווריאציות הקיימות לכל אחת, וכל ארגון מתאים את המחסן לאופיו הייחודי ולצרכיו.

 

·         מחסן נתונים ארגוני  (Enterprise Data Warehouse)  - מחסן ארגוני, כנובע משמו, מיועד לכלל משתמשי הארגון, ועל כן מאחד בבסיס נתונים אחד את כל הנתונים הרלוונטים לצורך יישום כל דרישה אפשרית.

·         מרכול נתונים  (Data Mart) – זהו מעין מחסן נתונים ממוקד וקטן יותר, המשרת בד"כ יחידה או מס' מצומצם של יחידות בארגון.

·         מחסן נתונים רב שכבתי  ( Multi Tiered DWH) – זהו מעין מחסן נתונים ארגוני, המורכב ממרכולי נתונים ייעודיים רבים.

·         מאגר נתונים תפעולי  (Operational Data Store) – מחסן נתונים שמיועד לדרג התפעולי בארגון, ולא לדרג הניהולי. ועל כן התוצרים שיפיק יהיו קשורים לרוב בדיווחים וניתוחי מידע שוטפים.

·         מחסן נתונים מדומה  (Virtual DWH) – ארכיטקטורה המדמה מחסן נתונים, ע"י יצירת אוסף כלים המאפשרים גישה נוחה לנתונים מתוך המערכות התפעוליות השונות בארגון, ללא בניית מאגר ייעודי.

 

 

 

כריית נתונים מבוא

 

קיימות הגדרות רבות למונח 'כריית נתונים', אך כולן מדברות על כריית נתונים כתפיסה, או תהליך, של הפיכת נתונים למידע תומך החלטה, באמצעות כלים טכנולוגיים מתוחכמים.

 

כריית נתונים היא חלק בלתי נפרד מתפיסת מחסן הנתונים, מכיוון שהיא עוסקת בהגשמת ייעוד מחסן הנתונים.

הסברנו שמטרת העל של מחסן הנתונים, הנה הצגת מידע תומך החלטה מתוך הנתונים הקיימים בארגון . לצורך הגשמת המטרה הזו, מבוצע שימוש בטכניקות וטכנולוגיות מגוונות של כריית הנתונים.

 

טכניקות לכריית נתונים

 

1.      תהליכי ניתוח מבוססי אימות- כלי ניתוח מידע המתבססים על הנחות שמגדיר המשתמש, ומפעילים טכניקות שונות על מנת לבסס או לסתור הנחות אלו.

חיסרון השיטה הנה המעורבות האנושית המשמעותית. וההסתמכות על הכישרון של המשתמש לשאול את השאלות הנכונות. על כן השיטה מתאימה ביותר כאשר המשתמש מבקש מידע ממוקד ויודע במדויק מה הוא מחפש.

בקטגוריה זו נמצאים מחוללי שאילתות ודוחות למיניהם, רובם מבוססי SQL.

 

2.      תהליכי ניתוח מבוססי גילוי – טכניקות בקטגוריה זו אינן נסמכות על הנחות המשתמש, אלא מנתחים את הנתונים הקיימים על מנת למצוא קשרים ויחסים נסתרים בין נתונים, ולהצביע על חריגים או תלויות מובהקות, וכד'.  לדוגמא בוצע תהליך כריית מידע על נתוני מבוטחים. כלומר נאספו מאות פרטים על כל אחד מהמבוטחים, ואח"כ ניסו ללמוד את הקשר בין  מבוטחים אוהבי סיכון- כלומר כאלו שיעדיפו פרמיה נמוכה והשתתפות עצמית גבוהה. מניתוח התוצאות התברר שבעלי מכוניות בצבע צהור ואדום נטו באופן מובהק, להעדיף פרמיה נמוכה והשתתפות עצמית גבוהה. ניתן לאחר תהלך כריית הנתונים להסביר את תוצאותיו, אך היה קשה היה להניח מראש שצבע הרכב ימצא כמנבא להעדפות הלקוח בתחום הביטוח.

שיטה זו מתאימה ביותר למשתמש שמחפש מידע כוללני יותר, או שאינו יודע להגדיר במדויק מה הוא מחפש.

בקטגוריה זו נמצא בין השאר:

עצי החלטה – טכניקה המשלבת גילוי והצגת חוקים, עם הצגה גראפית מובנת ונוחה.

רשתות עצביות – בנויות כ 'קופסא שחורה', והנן מערכות לומדות, השימושיות בעיקר לחיזוי וסווג. יעילות על מאגרי/מחסני נתונים גדולים.

כלי ויזואליזציה – לגילוי תבניות המסתתרות בנתונים, ע"י הצגה גראפית מתקדמת. דורש מהמשתמש יכולת הבנה וגילוי התבניות מתוך המוצג.

 

כלים סטטיסטיים – יעיל לניתוח נתונים, ופחות להסקת מסקנות. מורכבים מאלגוריתמים ודורשים מהמשתמש יכולת ניתוח המידע המוצג.

ועוד...

 

 

מודלים לכריית נתונים

 

להלן מספר דוגמאות  הקיימות כיום בשוק, יש לציין שהתחום עדיין מתחדש וגדל במהירות המחייבת בעולם ההי-טק.

 

·         Inteligent Miner  של חברת IBM

·         MineSet  של חברת Silicon Graphics

·         Darwin  של חברת Thinking Machines Corp

·         BusinessMiner  של חברת BusinessObject

·         NeuralWorks Predict  של חברת NeuralWare

·         Knowledge Discovery Workbench של חברת NCR 

·         כלי  SAS Miner כחלק מערכת ה BI שחברת SAS מציעה ועוד...

 

·         Essbase  של חברת Abor Software Corp

 

כתב וערך: ויקטור רוקח בעל תואר שני בניהול מערכות מידע.  תפקיד נוכחי - מנהל מספר צוותי מהנדסים ומנתחי מערכות.

 

Victor Rockah Msc IT Mangment

מאמרים נוספים שעשויים לעניין אותך:

שליחת המאמר שלח לחבר  הדפסת המאמר הדפסת המאמר  קישור ישיר למאמר קישור ישיר למאמר  דווח מאמר בעייתי דווח על מאמר בעייתי  כתוב לכותב המאמר פניה לכותב המאמר  פרסום המאמר פרסום המאמר 

©2017
כל הזכויות שמורות

מורנו'ס - שיווק באינטרנט

אודותינו
שאלות נפוצות
יצירת קשר
יתרונות לכותבי מאמרים
מדיניות פרטיות
רשימת כותבים
כותבים מומחים
עלינו בעיתונות
מאמרים חדשים
פרסם אצלנו
לכותבי מאמרים: פתיחת חשבון חינם
כניסה למערכת
יתרונות לכותבי מאמרים
תנאי השירות
הנחיות עריכה
לבעלי אתרים:



מדיה חברתית:
חלון מאמרים לאתרך
תנאי שימוש במאמרים
ערוצי מאמרים ב-RSS Recent articles RSS


מאמרים בפייסבוק מאמרים בטוויטר מאמרים ביוטיוב