איך ביג דאטה מרעילה את אסטרטגיית ה-AI שלכם

האחסון זול; הקשב מוגבל; הזיות המודל עולות ביוקר

גיא פיגל, שותף וראש תוכנית הדאטה בחץ ונצ’רס.

בעשור האחרון חיה תעשיית ההיי-טק לפי מנטרה פשוטה: לאסוף הכל. לשמור הכל. אחר כך נבין מה לעשות עם זה.

ולזמן מה זה באמת עבד. עם ארכיטקטורת Lakehouse וכלים כמו Snowflake, Databricks ו-S3, האחסון הפך כמעט לחינמי. אבל במקום לפתור את בעיית הדאטה – יצרנו אחת חדשה: השמנת יתר של דאטה. ארגונים שומרים היום יותר מפי שלושה דאטה לעומת 2019 – אבל קצב קבלת ההחלטות לא השתפר. אנחנו אוגרים מידע מהר יותר משאנחנו מסוגלים להשתמש בו.

זו לא רק בעיית עלות. זו בעיית מטבוליזם.

הבופה פתוח – אבל אנחנו גוועים

המהפך הפסיכולוגי התרחש כשהאחסון בענן הפך זול יותר מפיצה. אף אחד כבר לא מרגיש צורך למחוק לוגים, לנקות סכימות או לחשוב פעמיים על מדיניות שמירה. הכל זורם ל-Lakehouse "ליתר ביטחון". אבל הדיאגרמות היפות מסתירות את האמת: האחסון עצמו הוא רק חלק קטן מהעלות. השאר מגיע מהעתקים, גיבויים, תוכנה, קומפיוט, ובעיקר – שעות האדם שמנסות להבין את הבלאגן.

זוהי Dark Data: דאטה לא מנוהלת, לא מתועדת, לא בשימוש. היא סותמת מערכות, מאיטה צוותים ויוצר חובות תפעוליים עצומים.

משחקי הרעב של ה-LLM

Dark Data הייתה תופעה בעייתית גם בתקופת הדשבורדים. אבל בעידן ה-AI היא הופכת לחיסרון קטלני. רבים עדיין מניחים ש-"ותר דאטה = AI חכמה יותר", ולכן דוחפים לכל מאגר אפשרי כל PDF, אימייל, מסמך וטיקט. המחקר מראה את ההפך: ביצועי AI נמדדים באיכות – לא בכמות. סט של 100TB נקי ומסודר ינצח כל פעם 1PB מבולגן: זול יותר להרצה, מהיר יותר לאימון ומייצר הרבה פחות הזיות.

כשמאכילים LLM בדאטה סותרת, מיושנת או כפולה – הוא לא מתעלם מהרעש, הוא מנסה ליישב אותו. כך נוצרת הזיה בביטחון גבוה. ה-Dark Data שלכם הופכת לווקטור הזיה, שמרעיל את המודלים שלכם בזבל ארגוני.

קריסת הטורף-נטרף

כדי להבין מה קורה, עדיף לחשוב בביולוגיה, לא במדעי המחשב.

הנטרף: הדאטה שלכם. הטורפים: כלי האנליטיקה ומודלי ה-AI.

באקו-סיסטם בריאה יש איזון. הטורפים אוכלים את הנטרף בקצב הנכון. אבל כשהאוכלוסייה של הנטרף מתפוצצת מעבר ליכולת העיבוד – המערכת קורסת. לא בגלל מחסור במזון, אלא בגלל כאוס. צוותי דאטה היום מבזבזים מעל 40% מהזמן רק על איתור הטבלה הנכונה לפני שיוכלו לנתח אותה. הם "גוועים" בסביבה שיש בה יותר מדי מזון.

מודדים את הבריאות המטבולית

מנקודת מבט של משקיע, לא מעניין אותי כמה גדול ה-Data Lake שלכם – אלא איך הגוף שלכם מעכל אותו. צריך להפסיק למדוד הצלחה לפי "כמה פטה-בייטים שמרנו", ולהתחיל למדוד קיימות דאטה: היחס בין דאטה פעילה, שימושית ואמינה – לבין רעש מת.

אם בארגון יש 10,000 טבלאות ורק 1,200 בשימוש אמיתי – זה יחס פעילות של 12%. שאר 8,800 הטבלאות הן עשבייה שמחניקה את השטח. הן יוצרות:

חוב תפעולי: מהנדסים מובילים מתחזקים פייפליינים לדאטה שאף אחד לא משתמש בו.

חוב קוגניטיבי: אנליסטים טובעים בגרסאות, כפילויות והגדרות לא עקביות.

סיכון רגולטורי: לרגולטור לא אכפת אם השתמשתם בדאטה – אם אתם שומרים אותה אתם אחראים עליה. Dark Data היא פוטנציאל לתביעה.

הפתרון: ממנטליות של אגירה למנטליות מטבולית

עידן ה"לשמור הכל" נגמר. העתיד הוא ניהול מטבולי אוטונומי:

  • מערכות שמזהות ומארכבות דאטה שלא נגעו בה חודשים
  • כלים שמתריעים על הגדרות לא עקביות ותובנות שהתיישנו
  • פייפליינים שמנקים ומדללים דאטה באופן רציף
  • תרבות ארגונית שמתוגמלת על בהירות ואיכות, לא על נפח

זה הזמן להפסיק לחגוג מסת דאטה – ולהתחיל לחגוג שריר דאטה. אם הדאטה לא מזינ טורף אנליטי או מודל AI – היא צריכה לצאת מהמערכת. החברות שישלטו במטבוליזם של הדאטה שלהן ולא ברמת האגירה יהיו אלה שהאסטרטגיות ה-AI שלהן באמת יעבדו.

 

הכותב הוא שותף וראש תוכנית הדאטה בחץ ונצ’רס.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים