הדאטה הסינתטית – כמו רישיון להדפיס כסף

דאטה סינתטית מאפשרת בניית מודלי AI מוצלחת יותר, בהם יווצרו פחות הפרות פרטיות כמו גם פחות הטיות, ובמקביל יחול גישור על פני פערי דאטה אפשריים, מפאת חסר בנתונים

ד"ר ראובן שנפס, מנהל האנליטיקה הראשי של חברת האינשורטק ארניקס.צילום: דיוויד גארב

דאטה היא צינור החיים של הכלכלה העולמית. היכולת לנתח אותה במהירות באמצעות מודלים של AI ולהפיק ממנה תובנות מניעות לפעולה מקנה יתרונות תחרותיים לכל עסק. הכלכלה העולמית מוצפת בדאטה בכמויות אינסופיות, הנובעות ממיליארדי מכשירים דיגיטליים, אך כפי שמדעני נתונים יודעים, איסוף דאטה אמיתית ותיוגה הוא תהליך ארוך ויקר וכרוך גם בבעיות של פרטיות ואבטחה. כך נולד הצורך בדאטה סינתטית, לבניית מודלי AI, שעוקפת רבות מהבעיות של דאטה 'אמיתית' ומשחררת פוטנציאל עסקי אדיר לכל ארגון ובמיוחד לסטארט-אפים.

דאטה סינתטית היא מנוף אדיר של חדשנות, שפותח את צווארי הבקבוק של דאטה אמיתית, והיא תאפשר ליותר ויותר חברות לפתח במהירות אפליקציות AI מדויקות ואיכותיות. זוהי הזדמנות גדולה במיוחד עבור סטארט-אפים שמתקשים להתמודד עם המשימה הכבדה ועתירת המשאבים הכרוכה באיסוף דאטה, תיוגה, ניקויה ועוד

היסטורית, הדאטה הסינתטית נולדה באקדמיה בשנת 1993, על ידי פרופ' דונלד רובין מאוניברסיטת הארוורד, שרצה לנתח נתונים ממפקד האוכלוסין של ארה"ב בלי לחשוף מידע שניתן לשייכו לאזרחים ספציפיים. הוא הלביש על הנתונים ב'מסכה' ששמרה על הפרטיות, אך אפשרה לעבד את הנתונים סטטיסטית כאילו היו אמיתיים. פרופ' רובין הגדיר את הנתונים שיצר כדאטה סינתטית.

דאטה = כסף

ניתן לדמות את ייצור הדאטה הסינתטית כרישיון להדפיס כסף בכמות אינסופית על ידי כל חברה, באופן חוקי כמובן. אין פלא שהדאטה הסינתטית עושה את דרכה במהירות ללב תעשיית הפינטק ולתעשיות רבות נוספות. על פי גרטנר, בשנת 2021 רק 1% מהדאטה היה סינתטי, אך עד סוף 2024 הם חוזים כ-60% מהדאטה שמשמשת לפיתוח AI תהיה סינתטית. טכניקות כמו GANs, Transformers ומודלים של LLM כמו ChatGPT האיצו את תהליכי הייצור של דאטה סינתטית ושילובה בזרם המרכזי של המשק העולמי. חברות יכולות להפיק כיום דאטה סינתטית באופן דיגיטלי, בכל כמות, תוך התאמה למפרטים הטכניים המדויקים שלהן – ותוך צמצום הסיכונים והעלויות הכרוכים בפרויקטים של בינה מלאכותית.

יכולה לסייע מאוד לארגונים. דאטה סינתטית. צילום: אילוסטרציה. שאטרסטוק

תועלות מרכזיות בייצור דאטה סינתטית עבור בניית מודלי AI

גישור על פני פערי דאטה – ארגונים עושים שימוש בדאטה סינתטית במקומות שבהם חסרים להם נתונים אמיתיים איכותיים, או שהנתונים רגישים. באופן זה דאטה סינתטית יכולה לגשר בין יעדי הארגון לבין הדאטה הנדרשת לצמיחתו ושגשוגו.

אבטחה ושמירה על פרטיות – דאטה סינתטית מגינה על חיסיון הנתונים ובה בעת מאפשרת לבצע אנליטיקה קריטית הנדרשת עבור אפליקציות מודרניות. טכנולוגיות אנונימיזציה עשויות לא לספק רמת אבטחה מספיקה המגינה מפני גניבת זהויות, ניסיונות הונאה ופעולות זדוניות אחרות שדאטה סינתטית כן יכולה להגן מפניהן. השמירה המלאה על פרטיות והסרת החשש לפגיעה בה, מעודדת שיתופי פעולה הן בין צוותים בתוך הארגון והן בין הארגון לבין חברות צד ג', כמו ספקים, שותפים, מוסדות אקדמיים ועוד. שיתופי הפעולה הללו יכולים להניב פתרונות מקיפים יותר ואיכותיים יותר לתועלת כל הצדדים.

תמיכה אנליטית – דאטה סינתטית תומכת בבניית מספר גדול יותר של מודלי AI מדויקים, יציבים ועוצמתיים לצרכי סימולציה ובדיקות, ומשפרת את איכותם. יכולת זו מאיצה את הבנייה וההשקה של מוצרים חדשים, כניסה לפלחי שוק חדשים, גיאוגרפיות חדשות ועוד.

מניעת אפליות והטיות – עולם הבינה המלאכותית נחשף בשנים האחרונות לטענות מוצדקות כי חלק מהאלגוריתמים מוטים לרעה נגד קבוצות אוכלוסייה מסוימות ופוגעים בהן. הטענות הללו הציבו בפני חברות רבות סיכונים עסקיים, משפטיים ותדמיתיים משמעותיים. הדאטה הסינתטית יכולה למתן חלק מהבעיות הללו באמצעות Feature Balancing, שמצמצם הטיות מגדר, הטיות נגד קבוצות אוכלוסייה חלשות, הטיות מבוססות שיוך גיאוגרפי ועוד.

דאטה סינתטית היא מנוף אדיר של חדשנות, שפותח את צווארי הבקבוק של דאטה אמיתית, והיא תאפשר ליותר ויותר חברות לפתח במהירות אפליקציות AI מדויקות ואיכותיות. זוהי הזדמנות גדולה במיוחד עבור סטארט-אפים שמתקשים להתמודד עם המשימה הכבדה ועתירת המשאבים הכרוכה באיסוף דאטה, תיוגה, ניקויה ועוד. עם זאת, חשוב להמליץ לכל חברה לא לזנוח את הדאטה האמיתית. הסתמכות יתר על דאטה סינתטית עלולה לפגוע במאמצים לשפר את איכות התהליכים של איסוף דאטה אמיתית, שעל בסיסה נשען ייצור הדאטה הסינתטית, ולגרום בטווח הארוך לבעיות באיכות הדאטה שמחזיק הארגון. השילוב בין דאטה אמיתית לבין דאטה סינתטית במקומות שבהם יש פערי דאטה הוא הנוסחה המנצחת של כל חברה לבניית מודלי AI.

הכותב הוא מנהל האנליטיקה הראשי של חברת האינשורטק ארניקס (Earnix)

תגובות

(2)

כתיבת תגובה לבטל

Overmatching

לפני 7 חודשים

Synthetic data מוביל בדרך כלל ל overmatching , כיוון שמי שמפעיל את ה data generator מכוון אותן לפי מה שבן אדם מבחין ב observation. קלט מציאותי לעומת זאת מכיל ניואנסים עדינים שאף אדם אנושי אינו מסוגל להבחין ולסנטז. ניואנסים אלו חשובים ל parameters selection עבור מודלים של לימוד מכונה. התוצאה היא ביצועים קרובים ל 100% ללא false positive ב test set וב verification, ונפילה חדה עד כדיי 60% בניסוי מציאותי מחוץ למעבדה. אולי זה טוב לאקזיט אבל במציאות זה לא מחזיק מים.

השיבו לתגובה

משה

לפני 7 חודשים

ישנה מערכת מדהימה בשם mostly.ai שמאפשרת הפכת מידע אמיתי לסינטטי מאוד בקלות. זאת החברה המובילה היום בשוק ויש לה כמה מאות של לקוחות מאוד גדולים החל מלקוחות פיננסיים, לקוחות בטחוניים וארגונים מתחומי הבריאות.

השיבו לתגובה

פושעי הסייבר מוכנים לאולימפיאדה

מטריקס דיגיטל חידשה את האתר והאפליקציה של עיריית רמת גן

חדש מאפל: גירסת אינטרנט של אפליקציית המפות

לבנות מפעל AI – ולהישאר בחיים

"המסע למימוש המלא של ה-AI יארך שנים"

סאפ מרחיבה את הפיטורים: יעמדו על עד 10,000 עובדים

מאסק טוען: "איני תורם 45 מיליון דולר בחודש ל-טראמפ"

בגלל ה-AI: וול סטריט רשמה את היום הגרוע בתולדותיה מאז 2022

סקירה: Lenovo Legion R45w-30 – מסך מחשב ענק

נשים ומחשבים: ד"ר טל ליבוביץ ריבקין, DenovAI

אולימפיאדת פריז 2024: אתגרי שמירת הנתונים והאבטחה

איך להיכנס לסטארט-אפ מבטיח בדיוק בזמן הנכון?

למה וויז אמרה "לא" לגוגל?

להיות או לחדול? מאי-וודאות להיערכות

מהפכת ה-GPT: לא הכול נוצץ

קח לך AI ובנה איתה בית: כך ה-AI משנה את תחום המשכנתאות

הדאטה הסינתטית – כמו רישיון להדפיס כסף