"כשחווים תקלה קטסטרופלית בדטה סנטר – הכי חשוב לחייך"

המומחיות, היסודיות והמהירות הן מרכיבים חשובים בפתרון תקלות קריטיות בדטה סנטר - אבל גם היחסים הבין אישיים ● אריאל פיסצקי וברק לוזון מטאבולה מספרים על מקרה שהם חוו בערב פסח 2020, שנייה לפני ליל הסדר

אריאל פיסצקי, סמנכ''ל IT והגנת סייבר בטאבולה.

חיוך שעזר לפתור תקלה קריטית: "לפני כשנתיים חווינו את התקלה המשמעותית ביותר בחברה, עם נפילת מערכות כוללת", אמר אריאל פיסצקי, סמנכ"ל IT והגנת סייבר בטאבולה. "למרות חומרת המקרה, והעובדה שכולם ראו שיש עשן בדטה סנטר שלנו, ושהכבאים התרוצצו בו כאילו הם טכנאי תקשורת – המשכתי לחייך אל העובדים, אל ההנהלה ולכל מי שעסק בתיקון התקלה. זאת, כי הכי חשוב לשדר לכולם שאיש לא מחפש לערוף את ראשו של האחראי לתקלה, אלא שכולם עסוקים בהתגייסות משותפת לפתרונה. החיוך הזה סייע להביא לפתרון הבעיה בקלות רבה יותר – ומהר יותר".

פיסצקי וברק לוזון, מוביל תחום מו"פ להרחבת קהל בטאבולה, דיברו בכנס Agile Israel 2022. האירוע, בהפקת אנשים ומחשבים ובשיתוף אג'יילספארקס, התקיים אתמול (ד') בסינמה סיטי גלילות, בהשתתפות מאות מומחי אג'ייל. היה זה הכנס ה-15 במספר.

צילום ועריכת וידיאו: יוסי ציפקיס

עוד מעט אחזור לתקלה ולחיוך, אבל עוד לפני כן: נדמה שאין צורך להציג את טאבולה – החברה שייסד אדם סינגולדה ב-2006 ומאז הייתה לחברת המלצות התוכן הגדולה בעולם. ובכל זאת, פיסצקי ציין ש-"אנחנו פוגשים את המשתמשים ברגעי ה-'מה הלאה', כשהם מסיימים לקרוא תוכן אינטרנטי, ואז ממליצים להם מהו התוכן הבא שעשוי לעניין אותם. יש לטאבולה יותר משלושה מיליארד דפי המלצה ביום, והיא מטפלת ב-1.5 מיליון בקשות HTTP לשנייה. מערך המחשוב של החברה מטפל ב-100 טרה-בייט מידע ביום. שליש מגולשי העולם נחשפים לטאבולה מדי חודש".

לוזון אמר כי "בנינו ענן פרטי, משלנו, ואנחנו משרתים את המשתמשים שלנו באמצעות שישה דטה סנטרים הפזורים ברחבי העולם. חוות אלה מכילות עשרת אלפי שרתים, מה שבהכרח מוביל למורכבות תפעולית, ואם כל המערך הזה נופל – אז הוא נופל בענק".

כך בדיוק קרה בערב פסח 2020, במהלך הסגר הראשון של הקורונה. לוזון אמר כי "באמצע ההכנות לליל הסדר קיבלתי התרעה שלפיה דבר ב-IT שלנו לא עובד, איש לא יכול להתחבר לכלום, הכול נפל, הדטה סנטר חשוך ויש בו עשן. המצב היה מפחיד: זה לא דבר של מה בכך לראות לוחמי אש רצים בדטה סנטר שלך. כולם ישר חשבו 'מה הלאה?'. כולם היו במצב תודעתי מעט מפחיד, בשל המחשבה כיצד להתמודד עם נפילת מערכות המחשוב המשמעותית הזו".

ברק לוזון, מוביל תחום מו''פ להרחבת קהל בטאבולה.

ברק לוזון, מוביל תחום מו"פ להרחבת קהל בטאבולה. צילום: ניב קנטור

"הדרך להתמודד עם מצב מורכב ומאיים זה היא באימוץ, מטאפורי, של אחד הסעיפים בנוהל חירום של ה-FAA, מינהל התעופה הפדרלי של ארצות הברית", הוסיף. "הנוהל הזה קובע ומתזכר טייסים במצב חירום אודות סדר הפעולות שעליהם לבצע: 'טוס, נווט, תקשר'. המשמעות היא שיש לשמור את המטוס באוויר, נדרש לנווט אותו למקום מבטחים, וחשוב להיות בקשר עם חדרי הבקרה ולזכור שאתם לא לבד בעולם, ויחד ניתן יהיה להיחלץ מהמצב המאיים".

לא רק חיוך: מה עוד עושים כדי לפתור תקלות שכאלה?

"המקבילות של אנשי ה-IT לפעולות אלה הן בצורך להשיב את המערכות לתפקוד", אמר לוזון. "נדרשת שליטה. יש להחזיק המערכות באוויר, לא בהכרח לתקן אותן. בשלב הבא, של ה-'ניווט', יש להמשיך ולהתקדם, אף שתמיד חסר מידע. אלא שאם מתקדמים – יודעים לפתור את התקלה. אולם, מה שחשוב הוא התקשורת הבין אישית: תקשורת בעת תקלה לא חייבת להיות קטסטרופה, יש להזעיק את כולם ולשתף אותם בכל מידע אודות התקלה. שיתוף שכזה הוכיח את עצמו בעת נחיתת החירום של מטוס יו. אס. איירווייז בטיסה 1549 בינואר 2009 – שנחת בנהר ההדסון בניו יורק. כלל 155 הנוסעים ניצלו, בין השאר בשל התקשורת ושיתוף המידע מול ועם גופי ההצלה והחירום".

לסיום, פיסצקי אמר כי "הכול קשור למצב התודעה, התפיסה. על מנת להתגבר על תקלות בצורה טובה יותר נדרש לפעול למימוש BAT – ראשי תיבות של ללא בושה וביוש, זמינות ואחריותיות (Blameless, Accountability, Transparency). בעת תקלה, על כלל הצוותים בארגון להיות שקופים ואמיתיים. יש לייצר תרבות שמעודדת פתיחות ושקיפות, כי יש כמה דברים ברורים: התקלה בוא תבוא, היא לא שאלה של האם אלא של מתי; אסור להאשים איש, וממילא זה לא יעזור לפתרון התקלה; יש לוודא שהמנהלים משפיעים על הנעשה – יש ליטול מיד אחריות, לצד מיקוד שליטה פנימי. נדרש לפעול להגדלת השקיפות ולהביא לשיתוף אגרסיבי של כל מי שמעורב. על התקשורת להיות מתמשכת, כמעגל שמזין את עצמו ללא הרף. כך נביא לבנייה של תרבות ארגונית מתקשרת, פתוחה ונעימה. אין אבקת קסמים נגד תקלות, אבל אפשר לבנות סביבה שתוכל להתמודד עמן".

תגובות

(3)

כתיבת תגובה

האימייל לא יוצג באתר.

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. ניר

    כתוב מאוד יפה, אבל בטיסה 1549 בנהר ההאדסון לא היה בדיוק שיתוף פעולה.
    הטייס דחה את ההנחיות ממגדל הפיקוח ובכך הצליח להציל את הנוסעים.
    בקיצור סתם קשקוש בלבוש.
    מזכיר לי את הבדיחה על ההבדל בין poc לproduction – ארוך מידי לפה:)

  2. אבי

    ואחרח שהתקלה נגמרת, עוברים לביוש ושימוע…

אירועים קרובים