מהפכת הדאטה הרביעית

AI יוצרת מולידה את מהפכת הדאטה הרביעית ומספקת הזדמנויות אדירות לסטארט-אפים בתחום ניהול הדאטה

10/08/2023 14:31
עמרי גרין, שותף בקרן Dell Technologies Ventures.

הדאטה היא השמן הזורם במנועי הכלכלה הדיגיטלית הצומחת, ועל כן היקפו צומח בשני העשורים האחרונים בקצב מסחרר: מדי שנה נוצר בעולם מידע בהיקף גדול יותר מזה שנוצר בכל השנים שלפניה. כדי להפיק את ה"זהב" הטמון בדאטה נדרשות תשתיות חזקות של עיבוד ואחסון נתונים כדי להתמודד עם היקפי הדאטה הגדלים, אך מעת לעת התשתיות הללו לא עומדות בעומס. זו הסיבה לשרשרת מהפכות הדאטה שהתחוללו בעשורים האחרונים ולהולדתן של אלפי חברות לניהול מצבורי הדאטה של כל אחת מהן.

לפני 20 שנה, בעידן שנראה היום פרה-היסטורי, המידע נאגר במסדי נתונים רלציוניים (relational database) בארכיטקטורת SQL, ומוצרים כמו MS SQL, Oracle Database ו-MySQL נשאו בעול אחסון ועיבוד הדאטה.

כעבור שנים ספורות התברר ש-SQL אינו מצליח להתמודד עם ההיקפים הגדלים של הדאטה, וכך נולדה המהפכה השנייה: בסיסי נתונים מסוג NewSQL ו-NoSQL, שפתרו את דרישות הגידול והאופטימיזציה של עיבוד עומסי עבודה שונים. ארכיטקטורה זו הולידה מגוון של בסיסי נתונים מתקדמים ועתירי ביצועים, כמו Hadoop של קלאודרה (Cloudera) עבור יישומי ביג דאטה, MongoDB שמאחסן את המידע בצורה של מסמכים כאשר המסמך הוא המפתח וערכו הוא תוכנו, Redis שהוא מסד נתונים מסוג NoSQL הפועל בזיכרון ומבוסס קוד פתוח ו-Neo4j עבור גרפים ועוד.

"כיום, כשכל ילד וסבתא מפעילים אפליקציות AI כמו ChatGPT, נוצרות כמויות מידע גדולות נוספות, הדורשות עיבוד מיוחד בתחומי איסוף המידע, טיוב המידע, מעבר המידע, אינטגרציה של המידע, אבטחת המידע – הגישה אליו, הפרטיות שלו והציות!"

באופן לא מפתיע, גם התשתיות הללו "נסתמו" במהירות ולא היו מסוגלות להתמודד עם ההיקפים המתעצמים של הדאטה העולמית. כך הגענו לפני כ-10 שנים אל מהפכת הדאטה השלישית, הלא היא מהפכת שירותי הענן. ספקי ענן גדולים ואלפי ספקים מסוגים שונים מספקים כיום אלפי שירותי ענן בתחומים מגוונים, כמו אחסון, עיבוד עומסי עבודה, גיבוי, קונטיינרים, קוברנטים, עיבודי AI ו-ML ועוד.

ארכיטקטורת הענן הולידה שורה ארוכה של חברות סטארט-אפ, שהובילו שינויים באופני ניהול המידע בתחומים שונים ונוצרו חברות ענק כמו סנופלייק (Snowflake) ודאטבריקס (Databricks). לדוגמה: בתחום הקטלוג (חברות כמו Collibra, Alation), בתחום הטרנספורם (dbt) בתחום ה-extract and load  (חברות כמו Fivetran, Matillion), גישה ורגולציה על המידע (Immuta) וגרסאות שונות של המידע – בעצם GitHub של הדאטה (lakeFS).

מהפכת הדאטה הרביעית

בימים אלה אנו נמצאים בפתחה של מהפכת הדאטה הרביעית, שמתרחשת ממש מול עינינו: AI יוצרת (Generative AI)/מודלי שפה מורחבים (LLMs) עתידים לשנות את התשתיות מקצה לקצה פעם נוספת. כיום, כשכל ילד וסבתא מפעילים אפליקציות AI כמו ChatGPT, נוצרות כמויות מידע גדולות נוספות, הדורשות עיבוד מיוחד בתחומי איסוף המידע, טיוב המידע, מעבר המידע, אינטגרציה של המידע, אבטחת המידע – הגישה אליו, הפרטיות שלו והציות!

לצד דור חדש של מעבדי AI עוצמתיים מרגע לרגע, יזמים יוכלו להמציא דרכים טובות יותר לעיבוד של LLMs/LFMs ותבניות מידע אופטימליות עבור sparse data ומודלים ענקיים חדשים שצצים כל העת.

בדומה לחדשנות שנוצרה סביב ה-modern data stack, גם סביב ה-AI היוצרת יהיה צורך להמציא LLM data stack חדש, בעל יכולות מתאימות בתחומיי הקטלוג, איכות המידע, הגישה אליו ודרישות חדשות כמו ציות, שקיפות, ביקורת, אתיקה ומניעת הטיות ועוד. ומעל השכבות הללו נהיה עדים גם לחידושים בשכבת האפליקציה שמעל המידע בתחומים כמו בריאות דיגיטלית, שירותים פיננסיים, חינוך, ואולי נראה יותר חדשנות בתחום עריכת הדין, רכש, ניהול אופרציה, תמיכה, תחבורה, תעשייה 5.0 ועוד.

הפוטנציאל ליזמים.ות הוא גדול מאוד. לדוגמה, סטארט-אפים ישתמשו בדאטה ייחודי או ייצרו אותו בעולם שבו המודלים הכי חדשים זמינים לכולם. יזמים ויזמות ינצלו ידע ייחודי שצברו כדי להבין באיזה מידע כדאי להשתמש ואיך הכי נכון להשתמש בו כדי לפתח מוצרים ייחודיים שנותנים ערך משמעותי ללקוחות קצה. אלה תרחישים אמיתיים, וחברות כמו Ibex ו-Nucleai כבר מיישמות אותם בעולמות הפתולוגיה והפארמה.

עם זאת, כדי לממש את הפוטנציאל ניצבים בפני כולנו אתגרים רבים חדשים בתחומים שונים ובהם:

גישה למידע – היום הלימוד של LLM נעשה על מידע זמין באינטרנט, אך רדיט (Reddit) וגם כל בעלי המידע באינטרנט לא אוהבים את העובדה שמשתמשים עושים שימוש במידע הקנייני שלהם – מה נעשה כאשר הגישה למידע תיחסם או תהפוך ליקרה מאוד?!

שיתוף מידע – דאטה ייחודי הופך  לנקודת הבידול והיתרון התחרותי. אמנם, כמות מסוימת של מידע זמינה לכל, אך איך חברות גדולות יוכלו לשתף מידע בצורה השומרת על היתרון היחסי שלהם ובצורה מאובטחת?

מידע סינתטי – האם אנשים יצליחו להמציא או לפתור את בעיית הלימוד של המודלים בצורה יעילה ומהירה יותר על כמות מידע קטנה יותר?

אמינות התוצאות – האם שימוש במידע סינתטי או דרכים אחרות יאפשר לקבל תוצאות יותר אמינות (ולא תשובות טיפשיות של ChatGPT)?

אימון מכוונן – איך מנהלים בצורה רציפה את המידע שדרוש ללימוד רציף של המודלים ושומרים על דיוק גבוה ולא מקבלים פתאום תוצאות גרועות ברגע הכי חשוב של השנה (כמו בעונת החגים בחברות e-commerce)?

קרנות הון סיכון מסתערות על התחום ומחפשות את היזמים שיתמודדו עם האתגרים הללו ויהפכו אותם להזדמנויות. הקרקע רועדת במובן החיובי של המושג. על פי Pitchbook, בשנת 2022 קרנות הון סיכון השקיעו 4.5 מיליארד דולר בסטארט-אפים הפועלים בתחום, ובמחצית הראשונה של שנת 2023 היקף גיוסי ההון הגיע כבר ל-12 מיליארד דולר.

זו העת של יזמים ויזמיות ישראלים להיכנס בתנופה למהפכת הדאטה הרביעית ולבסס את ההיי-טק הישראלי כאחד ממובילי התחום, כפי שהשכלנו לעשות בשלוש מהפכות הדאטה הקודמות.

 

הכותב הוא שותף בקרן Dell Technologies Ventures.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים