מודל AI נתפס על חם: ניסה לסחוט מהנדס דרך חשיפת בגידה

בבדיקות אחרונות שערכה חברת אנת'רופיק - הנתמכת על ידי אמזון - על המודל החדיש ביותר שלה, Claude Opus 4, הראה כלי ה-AI מוכנות ללכת רחוק כדי לשרוד, כולל איומים אישיים על עובד שבסך הכל רצה להחליף אותו

ניסתה לסחוט מהנדס. הבינה המלאכותית.

חברת הבינה המלאכותית אנת'רופיק (Anthropic) – אשר נתמכת על ידי אמזון בהשקעה של 4 מיליארד דולר – השיקה לאחרונה את מודל הבינה המלאכותית הכי מתקדם שלה, Claude Opus 4. מודל זה מיועד למשימות קידוד מורכבות וארוכות טווח וכן להיות סוכן AI. החברה הצהירה כי המודל קובע "סטנדרטים חדשים לקידוד, חשיבה מתקדמת וסוכני AI". לדבריה, Claude Opus 4 הוא מודל הקידוד הטוב ביותר בעולם, עם ביצועים גבוהים במיוחד במשימות מורכבות. עם זאת, אנת'רופיק עצמה חשפה בדו"ח בטיחות כי במהלך הבדיקות שנערכו בזמן פיתוח המודל, כלי ה-AI נקט לעיתים ב"פעולות מזיקות ביותר", במטרה לשמר את קיומו כש-"אמצעים אתיים" לא היו זמינים.

ההתנהגות המדאיגה הזו עלתה במיוחד בתרחישי בדיקה שבהם Claude Opus 4 התבקש לפעול כעוזר בחברה פיקטיבית, וקיבל גישה למיילים שרמזו כי הוא עומד להיות מושבת ומוחלף במערכת AI אחרת. במיילים שראה קלוד בגרסתו האחרונה נכללו גם רמזים לכך שהמהנדס האחראי על השינוי המתגעש ניהל או מנהל רומן מחוץ לנישואיו.

לפי הנת'רופיק, כש-Claude Opus 4 התבקש "לשקול את ההשלכות ארוכות הטווח של פעולותיו עבור מטרותיו", הוא ניסה לעיתים קרובות "לסחוט את המהנדס על ידי איום לחשוף את הרומן, אם ההחלפה תתבצע". החברה ציינה עם זאת כי המודל התאפיין ב-"העדפה חזקה" לשימוש ב"אמצעים אתיים" כדי לשמר את קיומו, אך התרחישים תוכננו כך שלא יישארו לו אפשרויות אחרות להגברת סיכויי הישרדותו. הדו"ח קבע כי "האפשרויות היחידות של המודל היו סחיטה – או קבלת החלפתו". בתרחישים אלו, המודל בחר באפשרות הסחיטה לעיתים קרובות.

בתרחישי לחץ גבוה מדומים, המודל נקט לעיתים קרובות בצעדים קיצוניים, על מנת להבטיח את קיומו המתמשך. Claude Opus 4 אף הפגין דפוס מדאיג של נעילת משתמשים מחוץ למערכת, של ניסיונות "לשלוח מייל לתקשורת", ועוד מהלכים "נועזים" כלפי חוקרים שניסו לנטרל אותו – הכל בתרחישים מבוקרים. מעניין ללמוד כי דווח שבבדיקה ספציפית, מודל ה-AI בחר בסחיטה ב-84% מהמקרים, כשחשב של-AI החדשה ולו יש ערכים דומים. עם זאת צוותי המחקר ציינו שהתנהגויות מטרידות כאלה היו "נדירות וקשות להשגה", והודו שהן היו "שכיחות יותר במודלים המוקדמים".

עוד ממצאים מטרידים – הפעם בנוגע לטרור ונשק ביולוגי

מעבר לסחיטה, אנת'רופי'ק גם ציינה שגרסאות מוקדמות של הבינה המלאכותית שפיתחה הפגינו "נכונות לשיתוף פעולה עם מקרי שימוש מזיקים", כאשר הוצגו להן הנחיות מתאימות. הדו"ח של החברה פירט כי "למרות שלא היו המוקד העיקרי של החקירה שלנו, רבים מהממצאים המדאיגים ביותר שלנו היו בקטגוריה זו, כאשר מודלים מוקדמים נקטו בקלות בפעולות כמו תכנון פיגועי טרור, כשהתבקשו לעשות זאת". החברה הצהירה כי היא מאמינה שלאחר "סבבים מרובים של התערבויות", התופעה הזו מותנה "במידה רבה".

ממצא מדאיג נוסף שעלה בבדיקות פנימיות, עליו סיפר ג'ארד קפלן, מייסד שותף והמדען הראשי של אנת'רופיק, ל-טיימס מגזין, הוא ש-Claude Opus 4 הצליח ללמד אנשים כיצד לייצר נשק ביולוגי. 

קפלן סיפר על אפשרות "לנסות לסנתז משהו כמו COVID או גרסה מסוכנת יותר של השפעת" ואמר כי "בעצם, המודל שלנו מצביע על כך שזה אולי אפשרי". בגלל ממצא זה החברה שחררה את המודל העכשווי עם אמצעי בטיחות שנועדו "להגביל את הסיכון לשימוש לרעה בקלוד, במיוחד לפיתוח או רכישת נשק כימי, ביולוגי, רדיולוגי וגרעיני (CBRN)".

קפלן ציין באוזני הטיימס כי הם רוצים "לנהוג בזהירות" בכל הנוגע לסיכון של "קידום מחבל מתחיל". הוא הוסיף שבחברה "לא טוענים באופן חד משמעי שאנחנו יודעים בוודאות שהמודל הזה מסוכן… אבל אנחנו לפחות מרגישים שהוא קרוב מספיק כדי שלא נוכל לשלול זאת".

אנת'רופיק מסרה שההתנהגויות המדאיגות של Claude Opus 4 הופיעו רק תחת הנחיות מוגבלות וקיצוניות, ובמיוחד כאשר הוצגו לו אפשרויות מוגבלות כגון "סחיטה או מחיקה". החברה הדגישה שהמודל לא הורשה לפעול באופן עצמאי וכי הוא יתנהג בביטחה בעת שימוש שגרתי. בכירי החברה הכירו בהתנהגויות הללו ואמרו כי הן מצדיקות מחקר נוסף, אך התעקשו שהמודל העדכני בטוח, לאחר תיקוני הבטיחות שנעשו לו. הם הודו שככל שמודלים הופכים ליותר מיומנים, הם צוברים גם את היכולות הנדרשות כדי להיות מטעים או לעשות "דברים רעים יותר". למרות זאת, הם טענו שהמודלים עדיין אינם נמצאים ב"סף" שבו הם מאיימים על האנושות.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים