ענן מיקרוסופט שבת שמונה שעות – מה למדנו?

"המקרה המחיש לנו את חשיבות העבודה בסביבה מרובת עננים לא רק בשל היתרונות של כל ספקית ענן – אלא בשל הצורך בגיבוי בעת כשל בענן אחד" ● ההשבתות של ספקיות הענן הגדולות לא פגעו בתוצאות הכספיות הרבעוניות שלהן

השבתה של ענן Azure שךל מיקרוסופט - גורממ לשרשרת של תקלות בחברות וארגונים גדולים בגלובוס.

ענן מיקרוסופט Azure, חווה השבתה של יותר משמונה שעות בשבוע שעבר. זו השפיעה על הביצועים של מגוון המוצרים והשירותים של ענקית הטכנולוגיה – וגם על לקוחות שנפגעו בתגובת שרשרת – מתקלות בבנקים ובשירותי משחקים ועד לשיבושים בחברת תעופה, בשדות תעופה, באתרי שירותי הצבעה ובענקית תקשורת.

הפסקת החשמל הביאה לשיבושים הרבים בבריטניה, שם אתר נמל התעופה הית'רו הפסיק לעבוד באופן זמני. למרות שהטיסות נמשכו, צוותי שדה התעופה נאלצו לעבור לפעול חלקית לפי נהלים ידניים, מה שהוביל לעיכובים ולחוסר שביעות רצון של הנוסעים. בעיות דומות דווחו במדינות אחרות באירופה, בשדות וחברות תעופה העושות שימוש בענן Azure. הבנק הבריטי vaהגביל זמנית את שירותי הבנקאות המקוונים שלו. משתמשים ברשתות קמעונאיות ואפילו במשחקים פופולריים, כולל מיינקראפט, המתארחים בשרתי ענן של מיקרוסופט, חוו קשיים דומים. עוד חברות חוו בעיות מההשבתה, בהן  קרוגר (Kroger), אלסקה איירליינס (Alaska Airlines) והפרלמנט הסקוטי.

מומחים ציינו, כי למרות חומרתה, נראה כי האירוע היה פחות משבש מהנפילה של AWS שאירעה ימים לפני כן וגרמה להפסדים של מאות מיליוני דולרים.

לפי דו"ח ראשוני של מיקרוסופט, הפסקת החשמל של Azure ארכה שמונה שעות ו-20 דקות. רשת אספקת התוכן בענן, CDN, כמו גם שירות האבטחה של הענן, Azure Front Door (AFD) – עמדו במוקד הבעיות. אלה של AFD גרמו להשהיות, השבתות ושגיאות במגוון מוצרים ושירותים של מיקרוסופט, בהם הפורטל של Azure, ממשקי API של Azure Healthcare Azure Active Directory B2C,  Azure Databricks, Azure Healthcare APIs, Azure SQL Database, Azure Virtual Desktop (AVD), Container Registry, Microsoft Copilot for Security, ועוד.

מקור התקלה, לפי מיקרוסופט: "בשינוי לא מכוון שבוצע ב-AFD, שגרם  לשיבושים בשירותים וביישומי לקוחות התלויים ב-AFD לאספקת תוכן".

מיקרוסופט חסמה שינויי תצורה נוספים, ופרסה את תצורת "הטוב האחרון הידוע" במערכותיה לטובת התאוששות מדורגת וייצוב. "בחנו את אמצעי ההגנה שלנו ויישמנו בקרות אימות נוספות", מסרה, "פגם בתוכנה אפשר לפרוס תצורה פגומה ולעקוף אימותי אבטחה".

מומחים ציינו כי מיקרוסופט חוותה בעיית AFD כבר ב-9 באוקטובר, וזו הובילה להשבתות ולאספקת שירות קטועה בחלקים מהגלובוס. לאחר התקרית ב-9 באוקטובר מיקרוסופט אמרה שהיא הקשיחה את נוהלי ההפעלה הסטנדרטיים שלה כדי להבטיח שלא יעקפו את מערכת הגנת התצורה.

בשבוע שעבר, לפי הענקית מרדמונד, "נעשו פעולות ניקוי עם מטה-נתונים שגויים, לטובת עדכון פרופיל, ונוצר באג שלא היה ידוע בעבר. התקלה גרמה להפרעה ב-26% ממשאבי תשתית הנתונים של AFD באזורים אלה".

אינטגרטור גדול בארה"ב, המספק פתרונות של מיקרוסופט, אמר, כי "הפסקת החשמל הפכה חלק מפורטלי הספקים שבהם אנו משתמשים לבלתי נגישים. המקרה המחיש לנו את חשיבות העבודה בסביבה מרובת עננים, לא רק בשל היתרונות של כל ספקית ענן – אלא בשל הצורך בגיבוי בעת כשל בענן אחד".

"ההשבתה היא עדות שאפילו למערכות הנחשבות ביותר – אין אחריות ל-100% זמן פעולה", ציין ספק IT אחר בארה"ב, "מאד חשוב 'לחנך' לקוחות ארגוניים על חשיבותן של תוכניות המשכיות עסקית. זה שיש במכונית חגורות בטיחות לא אומר שאצא שלם בעקבות תאונה. חברות רבות יצטרכו להעריך מחדש היערכות ליתירות".

מומחים ציינו שחלקה של Azure בשוק הענן העולמי עולה על 20%, ו"תקריות כאלה מדגימות את הפגיעות שלה ושל דומותיה. רוב הדיגיטל העולמי מצוי ומרוכז בידי כמה חברות, ויש לכך השלכות".

מומחה נוסף ציין, כי "ריכוז כוח המחשוב בידי כמה ענקיות הופך את האינטרנט לפחות עמיד. חיסכון בשרתים מקומיים משמעו שעסקים וסוכנויות ממשלתיות תלויים בספק (ענן) אחד או שניים. כאשר אחד מהם נתקל בשגיאת תצורה – ההשלכות עלולות לשתק אלפי מערכות בבת אחת".

מומחים ציינו, כי ההשבתות של ספקיות הענן הגדולות לא פגעו בתוצאות הכספיות הרבעוניות שלהן, ובשיחות הרווחים לאחריהן – לא היה אנליסט שהעלה את הנושא. כך, פלח הענן החכם (IC) של מיקרוסופט חווה הכנסות של 30.9 מיליארד דולרים ברבעון האחרון, נתון המשקף עלייה של 27%. Azure ושירותי ענן אחרים ראו עלייה של 39% בהכנסות משנה לשנה.

מיקרוסופט הודיעה כי תסיים את השיפורים במערכות המעבר לגיבוי בעת כשל של פורטל Azure מ-AFD – עד דצמבר. דו"ח נוסף ומעמיק יותר על ההשבתה צפוי להתפרסם על ידה בשבוע הבא.

תגובות

(1)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. סער

    זו לא הפסקת חשמל. טעות בתרגום. לדעתי, נפילת נתונים

אירועים קרובים