מה ניתן ללמוד מנפילת חוות השרתים של בריטיש איירווייז?

הדטה סנטרים של חברת התעופה הגדולה נפלו בחודשים האחרונים פעמיים וגרמו לשיבושים ולעיכובי טיסות ● יגאל שניידר, מנכ"ל אלכסנדר שניידר, מנסה להשיב: מה גרם לתקלות החמורות ואיך ניתן היה למנוע אותן?

יגאל שניידר, מנכ"ל אלכסנדר שניידר. צילום: יח"צ

שתי תקלות בולטות אירעו באחרונה במערכות המחשוב של חברת התעופה הגדולה בריטיש איירווייז (British Airways): האחת בסוף מאי והשנייה בתחילת החודש הנוכחי.

בשני המקרים קרסו מערכות המחשוב של חברת התעופה בשל בעיית הזנת חשמל באחת מחוות השרתים שלה. על אף שהבעיה בחודש מאי ארכה זמן קצר – רבע שעה בלבד – בריטיש לא הצליחה להתאושש במשך יממה תמימה. כ-400 טיסות בוטלו וכ-75 אלף נוסעים נתקעו, חלקם ליממה. מזוודות רבות אבדו וחלקן נמצאו רק לאחר כשבוע. אתר ההזמנות הושבת גם הוא. הנזק לחברה נאמד בין 100 ל-150 מיליון פאונד (450-700 מיליון שקלים). השאלות שעולות הן: מדוע זה קרה ומה ניתן ללמוד מהאירוע?

ההודעה שבריטיש שחררה לעיתונות בעקבות המקרה הראשון מגלה טפח ומכסה טפחיים. לצערנו, כך נהוג בתעשייה ואין להאשים את החברה הבריטית בלעדית בכך. עם זאת, שיחה עם גורם בתעשייה המעורה בפרטים וסדרה של כתבות תחקיר בעיתונות המקצועית מראות תמונה פחות או יותר מלאה של האירועים ושל הלקחים שניתן להפיק מהם.

על פי דובר בריטיש איירווייז, במקרה הראשון, בעיה במערכות האל פסק למערכות מחשוב קריטיות גרמה לקריסה של הזנת החשמל לחוות השרתים למשך 15 דקות. טעות אנוש בעת החזרת המתח ובחירה שגויה בציוד תשתית לא אפשרה מעבר תקין לחוות הגיבוי וגם לא אפשרה עליה מסודרת של האתר המקורי.

לבריטיש, לפי הפרסומים, שלוש חוות שרתים. החברה עובדת בשיטה של אקטיב-אקטיב-פסיב, כלומר: שני אתרי גיבוי אקטיביים ושלישי – פסיבי. ככל הנראה, בשל בעיות החשמל באתר המקורי, הושחתו נתונים ואתר הגיבוי האקטיבי לא הצליח לעלות לאוויר. מה שעלה בסוף הוא אתר הגיבוי הפסיבי, וזו הסיבה שברשתות החברה הראו לזמן מה נתונים של יום קודם.

מדוע זה קרה?

מניתוח הדברים, לפחות בפעם הראשונה, מצטיירת תמונה כזו: לאחר כשל הקשור במערכות האל פסק בשילוב טעות אנוש נוצרה, עם חזרת החשמל, קפיצת מתח בארונות השרתים שהביאה לנפילות חוזרות ונשנות של שרתים ומתגים, מה שהשמיד ספקי כוח וגרם לציוד רב להתקלקל.

בעוד שהפסקות באספקת החשמל הן דבר שבשגרה, שילוב של טעות אנוש יחד עם בחירה לא מוצלחת של פריט בסיסי כמו פסי שקעים של ארונות מחשוב גרמו להשבתה כה יקרה. בחירה בפסי שקעים המאפשרים עלייה הדרגתית של הציוד בעת חזרת מתח הייתה מאפשרת לאתר המקורי לחזור לאוויר בצורה חלקה ומהירה, ולצמצם באופן משמעותי את נזקי ההשבתה. בהערכה גסה, ההשקעה בפסי השקעים המתקדמים יותר הייתה עולה לאתר כזה עשרות אלפי שקלים וחוסכת עלות השבתה של מאות מיליוני שקלים.

באשר לתקלה מהחודש הנוכחי – עדיין לא ברור האם היא קשורה לתקלה ממאי ועד כמה הדימיון ביניהן רב, אם בכלל. כך או כך, כתמיד, גם במקרה זה נשאלת השאלה: כיצד מונעים או מצמצמים את הסיכון של טעויות אנוש? אחת ההמלצות שלי היא לקיים הדרכה לצוות המתקן בעת ביצוע הסמכה מבצעית של חוות שרתים חדשה, שמתבצעת באמצעות ציוד המדמה שרתים. יש לקחת שבוע-שבועיים כדי לתרגל את צוות האחזקה ואת צוות ה-IT בתפעול אירועים, ולכתוב את ספר המתקן. כמי שמבצעים חדשות לבקרים הסמכות מבצעיות לאתרים חדשים, צר לנו, באלכסנדר שניידר, לראות שבשל לחץ זמנים, מרבית הלקוחות מוותרים על שלב חשוב זה בהדרכת צוות המתקן ופותחים פתח רחב יותר לטעויות אנוש בתפעול המתקן הקריטי.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים