GPT 5.2: בא לעבודה

המודל החדש של סם אלטמן וחבריו כולל שלל יכולות ושיפורים לטובת ארגונים ואנשי מקצוע, שמראים שכנראה שההכרזה של המנכ"ל על מצב חירום ב-OpenAI הביאה לתוצאות שהוא ציפה להן ● האם זה מספיק כדי להתחרות בגוגל?

GPT 5.2 - שיפור ניכר לעומת גרסה 5.1.צילום: Nwz, ShutterStock

ההכרזה של סם אלטמן על מצב חירום ב-OpenAI – השתלמה. לאור התחרות המתגברת מצד גוגל ומודלים כמו ננו בננה פרו (בחיי, מי חשב על השם המטופש הזה?), החברה עשתה מאמץ מרוכז, ולפני כשבוע וחצי הכריזה על GPT 5.2 – הגרסה החדשה של המודל שמאחורי ChatGPT. עכשיו תגידו: מה ההבדל הגדול בינה לבין 5.1? אמנם, השינוי במספר הגרסה הוא רק בספרה העשרונית, אחרי הנקודה, אבל מהותית, מדובר בשדרוג מז'ורי. הנה עיקרי הדברים – מה שמסביר למה זהו שינוי גדול.

GPT 5.2 הוא מודל שנועד לעבודה, לעסקים ולאנשי מקצוע. על הדרך הוא מסייע לאנשים מהיישוב, אבל OpenAI באמת שמה כאן על הכוונת שלה את השוק המבוקש ביותר, שאחריו רודפות כל חברות ה-AI: השוק הארגוני והמקצועי, שדורש תוצרים ללא פשרות וללא הזיות. ארגונים מקצועיים וחברות הם לא תלמידים שמגישים עבודה לבית הספר ועלולים לקבל הורדה בציון. התוצרים שלהם חייבים להיות מדויקים, נכונים וחדים, ולשם OpenAI מכוונת.

במדד GDPval, שבודק משימות מבוססות ידע לרוחב 44 מקצועות שונים, שנלקחו מתשע התעשיות שהכי תורמות לתמ"ג האמריקני, רושמת גרסה 5.2 של GPT הצלחה של 71% (ליתר דיוק, 70.9%) במודל Thinking (מודל ה-Pro מוציא תוצאות גבוהות אפילו יותר) לעומת 38.8% של גרסה 5.1. זו לכל הדעות קפיצה משמעותית. לטענת OpenAI, הגרסה החדשה מפיקה תוצאות זהות או טובות יותר מאנשי מקצוע מומחים בתחומם, גם לפי הערכה אנושית, בתוצרים כמו גיליונות נתונים, מצגות ואחרים.

"מדובר בקפיצה מרגשת ומורגשת באיכות הפלט… זה נראה כאילו העבודה נעשתה בידי חברה מקצועית, עם תבנית עיצוב מוקפדת ועצות על אופני הגשה, על אף שהיו לנו שגיאות מינוריות לתקן", כתב אחד השופטים האנושיים של GDPval, שהעריך את התוצר של GPT 5.2.

התוצאות של המודלים השונים של GPT 5.2 במדד GDPval. צילום: OpenAI

הפער – ביכולת ההיקש

OpenAI טוענת בביטחון שהגרסה החדשה מסוגלת להפיק תוצרים מורכבים במקצוע כמו כלכלן בנקאות זוטר, למשל מודל דיווח משולש לחברת פורצ'ן 500 או הצעת השתלטות על חברה לדירקטוריון שלה, באותה יעילות של איש מקצוע, במהירות גבוהה ביותר מפי עשרה ובאחוז בודד של העלות. אולי יש אנשי מקצוע שכן צריכים לחשוש למשרתם?

לטענת החברה, הפערים בין היכולות נובעים מיכולת היקש טובה בהרבה מהמודל הקודם. ל-GPT 5.2 יש יכולת התמודדות טובה יותר עם מסמכים ארוכים וביצוע של משימות מורכבות ומתמשכות, כמו גם של משימות שדורשות שרשור ארוך. כמו כן, אומרים ב-OpenAI, יש גרסה יכולה לבצע טוב יותר משימות שדורשות היקש עמוק, כמו מתמטיקה, מדעים וכתיבת קוד. באופן דומה והכרחי למשימות מעין אלה, החברה שמה דגש מיוחד על הפחתת ההזיות של המודל ותשובות שאינן נכונות עובדתית (רוצים לדעת איך זה נעשה? קראו את הראיון שביצעתי כאן לפני שבועיים).

ואם כבר הזכרתי ראיון, בשבוע שעבר נתתי ל-GPT 5.2 "ללעוס" תמלול מורכב, שכלל כמה דוברים. התוצאות הראשוניות היו סבירות, אבל הצטרכתי תמלול מדויק. GPT 5.2 הציע לי בעצמו תמלול עם עריכה אגרסיבית יותר וביקש את רשותי להתערב יותר בטקסט. אישרתי לו. התוצאה הייתה מרשימה מאוד – הוא שכתב את התמלול לרמת דיוק ושפה גבוהה מאוד, ללא ההקלטה המקורית, ממש כאילו היה אדם שישב בחדר או קלדנית מקצועית. כנראה שיש אנשים שכן צריכים לחשוש למשרתם.

עונים לבננה

הפקטור התורם השני הוא זיכרון. השבוע טען אלטמן שהקרב בין הבינות המלאכותית לא יוכרע באיכויות העיבוד והפחתת ההזיות של המודלים, אלא בסוגיית הזיכרון. כלומר, עד כמה מודל מסוגל לזכור מניסיון העבר שלו, ללמוד ממשימות קודמות שביקשתם ממנו לבצע וליישם את הסגנון, אופן העבודה או הידע שצבר בביצוע משימות חדשות. במובן הזה, מודלי בינה מלאכותית מנסים ננש להידמות לבני אדם – ו-OpenAI טוענת לשיפור משמעותי גם כאן. מדובר ביכולת לבצע משימות ביעילות לאורך כמות יותר גדולה של אסימונים (טוקנים), בריבוי משימות. כלומר, לחבר הבנה בין משימות שרצות במקביל – והיכולת "לא לשכוח דברים" גם בהרצות של פרויקטים מורכבים. בנוסף, GPT 5.2 יותר מוכוון יעילות, כך שהוא מאפשר ניצול מקסימלי של כל אסימון. לארגונים שרוכשים ומשתמשים במיליוני אסימונים לפרויקט, זה גם מתבטא בחיסכון בעלויות.

שתי התוספות האחרונות במודל החדש לצד המקצועי הן היכולת "לקרוא" לכלים מקצועיים, מסייעים, תוך כדי עבודה – מה שרלוונטי בעיקר לעבודה סוכנית, ושיפורים משמעותיים ביכולות ראיית המכונה – כלומר, ביכולת לפענח ולהבין צילומי מסך, דיאגרמות, שרטוטים טכניים, תרשימים ושאר תוצרים גרפיים או ויזואליים.

יצר מודל חדש, שנותן פייט לגוגל. סם אלטמן. צילום: ShutterStock

ואם בתוצרים ויזואליים עסקינן, ל-OpenAI יש החל מהשבוע גם סוכריה ל-"סתם" בני אדם שאוהבים להשתעשע עם תמונות, ולא רק מומחים בתחומם – בזכות GPT 5.2, ובמענה ישיר למודל הננו בננה פרו של גוגל, ChatGPT התחדש בלשונית בשם תמונות (Images), שלא רק מייצרת כעת תמונות באיכות גבוהה יותר מבעבר, אלא גם מציעה סגנונות צילום ועיבוד שונים ממש מתחת לשורת הפקודה, ומציגה לנו את כל התמונות שיצרנו בעבר בעזרת ChatGPT. זה מאוד נוח, וברור שמכוון כמענה לגוגל, שפתאום עקפה את חבורת אלטמן בסיבוב. בנוסף, יש חנות אפליקציות לחיבורים לשירותים שעובדים עם ChatGPT.

מודל GPT 5.2 זמין לכל המנויים המשלמים של OpenAI בשלוש רמות עיבוד: פשוטה למשימות פשוטות ויומיומיות, מודל Thinking למשימות שדורשות מחקר עמוק יותר ומודל Pro בשכבה העליונה. הכלי החדש זמין גם למפתחים, דרך ממשקי ה-API של החברה. מודל 5.1 עבר אחר כבוד לאפשרות ה-"מודלים הישנים" (Legacy), לצד אחיו, 4o, שאנשים התקשו להיפרד ממנו – וכנראה שממש בקרוב ייאלצו להיפרד ממנו סופית.

"האתגר: יתירות למלאי ול-IT, בארץ וגם בחו"ל"

"איראן העבירה הילוך בסייבר: מריגול ומודיעין – להשמדת נתונים והרס"

טראמפ מינה את אליסון, צוקרברג והואנג ליועצי AI

להטמיע AI בארגון – ולא לפשוט את הרגל

מטא: יד אחת מפטרת מאות עובדים; יד שנייה משקיעה מיליארדים ב-AI

ARM נכנסת לשוק המעבדים: הכריזה על AGI CPU

דו"ח ממשלתי: מערכת החינוך נכשלת בייצור הדור הבא של ההיי-טק

"במקום לשאול איך – אומרים תעשה ומקבלים תוצר מוכן מוגמר"

ה-IT במלחמה: עברנו את פרעה – אנחנו עוברים גם את זה

סופה של סורה: למה OpenAI הרגה את ה"צעצוע" הכי מרגש שלה?

שוק העבודה בזמן אי־ודאות: למה עומק מקצועי חשוב יותר מתמיד?

נשים ומחשבים: נירית חן, קבוצת iTalent

האם דור ה-Z באמת מאבד את המוח או דווקא בונה אותו מחדש?

המתח בין החדש לישן: כיצד לחבר בין אסטרטגיית ה-AI והמיינפריים?

זה היה הרבעון שהיה לענף ה-IT בישראל

האם הארגון שלכם מוכן לחוק האירופי לחוסן לסייבר?

GPT 5.2: בא לעבודה

הפער – ביכולת ההיקש

עונים לבננה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

ידיעות מובילות

וואן טכנולוגיות תפיץ ותשווק את פתרונות מייק בישראל

תוצאות שיא ל-וואן: ההכנסות והרווח הנקי רשמו עליות שנתיות

טהרן חוותה "הפסקת חשמל" דיגיטלית

"סיכון קוד חייב להיות מנוהל בליבת הארגון, לא בשוליים"

כך ה-IT סייע לטפל בפגיעת הטיל בבית שמש

"רתמנו את הנתונים לתובנות מצילות חיים"

"האתגר: יתירות למלאי ול-IT, בארץ וגם בחו"ל"

"איראן העבירה הילוך בסייבר: מריגול ומודיעין – להשמדת נתונים והרס"

טראמפ מינה את אליסון, צוקרברג והואנג ליועצי AI

להטמיע AI בארגון – ולא לפשוט את הרגל

מטא: יד אחת מפטרת מאות עובדים; יד שנייה משקיעה מיליארדים ב-AI

ARM נכנסת לשוק המעבדים: הכריזה על AGI CPU

דו"ח ממשלתי: מערכת החינוך נכשלת בייצור הדור הבא של ההיי-טק

"במקום לשאול איך – אומרים תעשה ומקבלים תוצר מוכן מוגמר"

ה-IT במלחמה: עברנו את פרעה – אנחנו עוברים גם את זה

סופה של סורה: למה OpenAI הרגה את ה"צעצוע" הכי מרגש שלה?

שוק העבודה בזמן אי־ודאות: למה עומק מקצועי חשוב יותר מתמיד?

נשים ומחשבים: נירית חן, קבוצת iTalent

האם דור ה-Z באמת מאבד את המוח או דווקא בונה אותו מחדש?

המתח בין החדש לישן: כיצד לחבר בין אסטרטגיית ה-AI והמיינפריים?

זה היה הרבעון שהיה לענף ה-IT בישראל

האם הארגון שלכם מוכן לחוק האירופי לחוסן לסייבר?

GPT 5.2: בא לעבודה

הפער – ביכולת ההיקש

עונים לבננה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

וואן טכנולוגיות תפיץ ותשווק את פתרונות מייק בישראל

תוצאות שיא ל-וואן: ההכנסות והרווח הנקי רשמו עליות שנתיות

טהרן חוותה "הפסקת חשמל" דיגיטלית

"סיכון קוד חייב להיות מנוהל בליבת הארגון, לא בשוליים"

כך ה-IT סייע לטפל בפגיעת הטיל בבית שמש

"רתמנו את הנתונים לתובנות מצילות חיים"