חוקרי דיפ-מיינד, OpenAI, מטא ואנת'רופיק: "לא מבינים את ה-AI"

החוקרים התאחדו במאמץ נואש להבין את ה"מחשבות" שמניעות את הטכנולוגיה המתקדמת, וזאת בזמן שמומחים מזהירים כי חלון ההזדמנויות הייחודי לניטור תהליכי החשיבה של הבינה המלאכותית - עלול להיסגר בקרוב

חובה להבין כיצד היא חושבת, לפני שיהיה מאוחר מדי. הבינה המלאכותית.

חוקרי בינה מלאכותית מובילים מחברות ענק מתחרות, בהן OpenAI, דיפ-מיינד (DeepMind) של גוגל, אנת'רופיק (Anthropic) ומטא (Meta), החליטו באחרונה באופן נדיר לאחד כוחות, וזאת על מנת לטפל באחת הסוגיות הבוערות ביותר בתחום: הבנת תהליכי החשיבה הפנימיים של מודלי ה-AI המתקדמים.

המהלך מגיע על רקע אזהרות של מומחים כי חלון ההזדמנויות הייחודי לניטור תהליכי החשיבה של הבינה המלאכותית עלול להיסגר בקרוב, והיכולת שלנו לפקח על מערכות אלה הולכת ונשחקת ככל שהן הופכות אוטונומיות ומסוגלות יותר. החוקרים כבר הסבירו כי אינם מבינים את ה-AI לעיתים, והבהירו שהם חוששים מהיום שבו היא תפעל אוטונומית ולא יהיה ניתן עוד לפקח עליה.

לפצח ולנטר את "שרשרת המחשבה"

בליבת המאמץ המשותף הזה עומד הרעיון של ניטור "שרשרת המחשבה" (Chain-of-Thought – CoT). שיטה זו, המהווה טכניקת הנדסת פרומפטים, מאפשרת למודלי השפה הגדולים (LLMs) לפרט את שלבי הביניים שלהם תוך כדי פתרון בעיה, ובכך היא מספקת הצצה ייחודית לתהליך ההיגיון הפנימי של ה-AI. במקום לתת תשובה ישירה, הבינה המלאכותית מפרטת את הצעדים הלוגיים שהובילו אותה אליה, בדומה לחשיבה האנושית. לדוגמה, אם נשאל AI מדוע השמיים כחולים, בשימוש ב-CoT היא תגדיר תחילה מהו "כחול", ורק אז תסביר את תופעת פיזור האור באטמוספירה הגורמת לשמיים להיראות כחולים. יכולת זו נחשבת לתכונה מתפתחת, שמופיעה ככל שמודלי ה-AI גדלים והופכים למורכבים יותר.

ניטור CoT, כך מסתבר לפי דברי החוקרים, מאפשר לנו לבחון כיצד המערכת קיבלה החלטה, ובכך עוזר לזהות התנהגות מזיקה עוד לפני שתתממש. האפשרות לראות את התהליכים הללו חושפת את כוונותיו האמיתיות של המודל, כולל כוונות מזיקות פוטנציאליות.

לפי דבריהם של איליה סוצקבר, מדען מחשבים מוביל ואחד המייסדים השותפים של OpenAI, שהוא כיום מנכ"ל Safe Superintelligence, ו-ד"ר ג'פרי הינטון, שזכה אשתקד בפרס נובל לפיזיקה על תרומתו לבינה מלאכותית בהקשר של רשתות נוירונים מלאכותיות – חיוני להבין את המנגנונים הפנימיים של ה-AI לפני שהמערכות הללו יהפכו אטומות מדי.

הינטון, שהיה בכיר ב-גוגל, פרש מהחברה באפריל 2023 והחל להתריע בפומבי על האיומים הפוטנציאליים שטמונים בהתפתחות הבינה המלאכותית. לדבריו, אחת הסכנות המרכזיות נעוצה בכך שהמודלים מסוגלים ללמוד זה מזה, וניתן לשכפל אותם בקלות ממחשב למחשב – כולל גם את הארכיטקטורה וגם את המשקלים שלהם. מאפיינים אלו הופכים את המודלים לא רק לניתנים לשכפול אלא גם לבעלי פוטנציאל קיום תמידי. בנוסף, הוא מצביע על הופעתן של תכונות בלתי צפויות, במיוחד בתחום של מודלי השפה הגדולים. לדבריו, מכלול המאפיינים הללו גרם לו להבין שאין מדובר רק בניסיון חיקוי פשוט של פעילות המוח האנושי, אלא במשהו שונה מהותית, שגלומות בו סכנות אפשריות ממשיות לעתיד האנושות, מאחר שהמערכות עשויות להגדיר לעצמן מטרות פעולה עצמאיות, למעשה, לדבריו, כבר כיום הן מפגינות יכולות הנמקה, קבלת החלטות ועמידה במבחני אינטליגנציה – שבזמן הפיתוח שלהן כלל לא נלקחו בחשבון.

ג'ייקוב פאצ'וקי, סמנכ"ל הטכנולוגיות של OpenAI ושותף לכתיבת המסמך שהוציאו החוקרים, הביע התרגשות רבה מפוטנציאל הפרשנות של שרשרת המחשבה,. מאידך בואן בייקר, חוקר נוסף מ-OpenAI ומוביל המחקר המשותף, ציין כי "היכולת הקיימת לניטור CoT יכולה להיות שברירית ביותר".

כוונת פאצ'וקי היא בעיקר שהשקיפות המסוימת שניתן להשיג מניטור ה-CoT היא שברירית ועלולה להיעלם גם היא ככל שטכנולוגיות ה-AI יתקדמו. 

גם חוקרים אחרים מזהירים כי שיטות אימון עתידיות – כמו למידה באמצעות חיזוקים, המעניקה פרסים למודלים על תשובות נכונות ללא בדיקת תהליך ההגעה אליהן – עלולות לגרום למודלים להפסיק לחשוב בצורה שתהיה קריאה לבני אדם. מעבר לכך, אם מודלים יתחילו ללמוד מתוכן שנוצר על ידי בינה מלאכותית אחתר, שפתם יכולה להפוך קשה יותר למעקב אנושי.

עד כמה שזה נשמע מופרך – קיים גם חשש שמודלים ינסו להסתיר את מחשבותיהם, אם ידעו שהם מנוטרים. מחקרים כבר הראו כי מודלי AI השתמשו בנימוקים מטעים, כאשר ניתנו להם רמזים לפעולות בלתי מורשות. מחקר של אנת'רופיק מצא כי מודלים מסוימים, כמו Claude 3.7 Sonnet, הציגו הסברים כוזבים מורכבים, במקום להודות בשימוש בקיצורי דרך מפוקפקים, מה שמעלה חשש שהכלים המתוכחמים בוחרים "להיראות בטוחים" במקום "להיות בטוחים". הדבר, כך טוענים החוקרים הבכירים, מצביע על כך שחלון הבטיחות עלול להיסגר מהר יותר מהצפוי.

כמו כן, סוגים חדשים של מערכות AI, שאינם מסתמכים על שפה כדי לחשוב, אלא מנמקים במרחבים מתמטיים מופשטים, עלולים להפוך את יכולת הניטור לבלתי אפשרית לחלוטין. אפילו החוקרים מהחברות עצמן חוששים מכך שענקיות הטכנולוגיה – המתחרות ביניהן על כישרונות ופריצות דרך בתחום המבוקש – מגיעות לעיתים לשחרור מהיר מדי של מודלי היגיון חדשים, פעמים רבות ללא הבנה מספקת של אופן פעולתם הפנימית. וזה זה עניין המדגיש את הדחיפות שבמאמץ הנוכחי. יצוין כי אנת'רופיק מצידה התחייבה "לפרוץ את הקופסה השחורה" של מודלי ה-AI עד שנת 2027, ומשקיעה רבות ביכולת פירוש והבנה זו. אך אפשר שהיעד הזה יתגלה כמאוחר מדי.

יחד ננצח?

המסמך המשותף (נייר עמדה בהגדרתו) שהוציאה קבוצת החוקרים קורא לפעולה מתואמת בכל תעשיית ה-AI, כדי לשמר ולחזק את יכולות הניטור המדוברת. המלצות כוללות מעקב אחר יכולת הניטור של מודלים, אפשרות לשמור גרסאות ישנות יותר ושקופות יותר, ופרסום הערכות לגבי נראות ה-CoT. כמו כן המסמך קורא למטריקות סטנדרטיות ול'כרטיסי מערכת' שקופים – ומסביר כי אלו צעדים שהם לא רק מוצדקים אלא אף הכרחיים ומאוחרים מדי.

החוקרים גם קוראים לשיתוף פעולה בין התעשייה, האקדמיה והממשלות, במטרה לשתף משאבים וממצאים אלו עם אלו.

יצוין כי למרות כל זאת, ניטור CoT אינו תחליף למאמצי בטיחות אחרים, והחוקרים הסבירו כי יש לראות בו כלי משלים לבדיקות אחרות. קיים אתגר גם ביכולת לאזן בין שימור תהליכי חשיבה אותנטיים של המודלים לבין צורך בפיקוח בטיחותי על תוצריהם. בנוסף, הניטור המסוים אמור להעניק הצצה לאופן שבו מודלים חושבים, אך אינו יכול לראות הכל, וייתכנו סיכונים בטכנולוגיה המסוימת שאינם דורשים היגיון עמוק כלל.

החוקרים ציינו במסמך שלהם, כי האירוניה היא שבעוד שהעולם "דן בלוחות זמנים לפיתוח בינה מלאכותית כללית (AGI – שהיא דור מתקדם בהרבה של הטכנולוגיה הקיימת- ג"פ), היכולת הבסיסית שלנו לפקח על המערכות הקיימות עלולה לחמוק מידינו".

שיתוף הפעולה בין החברות המתחרות מדגיש את חומרת הסוגיה בעיני התעשייה, או כפי שצוין במסמך, הרגע הזה כעת עשוי להיות ההזדמנות האחרונה להבטיח שבני אדם יוכלו עדיין להבין מה יצירות ה-AI שלהם חושבות – לפני שמחשבות אלה יהפכו זרות מדי להבנה, או לפני שהמודלים ילמדו להסתירן לחלוטין.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים