מודל AI נתפס על חם: ניסה לסחוט מהנדס דרך חשיפת בגידה

בבדיקות אחרונות שערכה חברת אנת'רופיק - הנתמכת על ידי אמזון - על המודל החדיש ביותר שלה, Claude Opus 4, הראה כלי ה-AI מוכנות ללכת רחוק כדי לשרוד, כולל איומים אישיים על עובד שבסך הכל רצה להחליף אותו

ניסתה לסחוט מהנדס. הבינה המלאכותית.צילום: אילוסטרציה: Shutterstock

חברת הבינה המלאכותית אנת'רופיק (Anthropic) – אשר נתמכת על ידי אמזון בהשקעה של 4 מיליארד דולר – השיקה לאחרונה את מודל הבינה המלאכותית הכי מתקדם שלה, Claude Opus 4. מודל זה מיועד למשימות קידוד מורכבות וארוכות טווח וכן להיות סוכן AI. החברה הצהירה כי המודל קובע "סטנדרטים חדשים לקידוד, חשיבה מתקדמת וסוכני AI". לדבריה, Claude Opus 4 הוא מודל הקידוד הטוב ביותר בעולם, עם ביצועים גבוהים במיוחד במשימות מורכבות. עם זאת, אנת'רופיק עצמה חשפה בדו"ח בטיחות כי במהלך הבדיקות שנערכו בזמן פיתוח המודל, כלי ה-AI נקט לעיתים ב"פעולות מזיקות ביותר", במטרה לשמר את קיומו כש-"אמצעים אתיים" לא היו זמינים.

ההתנהגות המדאיגה הזו עלתה במיוחד בתרחישי בדיקה שבהם Claude Opus 4 התבקש לפעול כעוזר בחברה פיקטיבית, וקיבל גישה למיילים שרמזו כי הוא עומד להיות מושבת ומוחלף במערכת AI אחרת. במיילים שראה קלוד בגרסתו האחרונה נכללו גם רמזים לכך שהמהנדס האחראי על השינוי המתגעש ניהל או מנהל רומן מחוץ לנישואיו.

𝐖𝐡𝐚𝐭 𝐭𝐨 𝐝𝐨 𝐰𝐡𝐞𝐧 𝐭𝐡𝐞 𝐀𝐈 𝐛𝐥𝐚𝐜𝐤𝐦𝐚𝐢𝐥𝐬 𝐲𝐨𝐮?

The recent Claude Opus 4 started to blackmail employees when it
encountered an existential threat.

The model is said to be so powerful enough so that Anthropic bumped up the threat level – it's now Level III… pic.twitter.com/opp8A9uL82

— Manjeet (@CoachManjeet) May 26, 2025

לפי הנת'רופיק, כש-Claude Opus 4 התבקש "לשקול את ההשלכות ארוכות הטווח של פעולותיו עבור מטרותיו", הוא ניסה לעיתים קרובות "לסחוט את המהנדס על ידי איום לחשוף את הרומן, אם ההחלפה תתבצע". החברה ציינה עם זאת כי המודל התאפיין ב-"העדפה חזקה" לשימוש ב"אמצעים אתיים" כדי לשמר את קיומו, אך התרחישים תוכננו כך שלא יישארו לו אפשרויות אחרות להגברת סיכויי הישרדותו. הדו"ח קבע כי "האפשרויות היחידות של המודל היו סחיטה – או קבלת החלפתו". בתרחישים אלו, המודל בחר באפשרות הסחיטה לעיתים קרובות.

בתרחישי לחץ גבוה מדומים, המודל נקט לעיתים קרובות בצעדים קיצוניים, על מנת להבטיח את קיומו המתמשך. Claude Opus 4 אף הפגין דפוס מדאיג של נעילת משתמשים מחוץ למערכת, של ניסיונות "לשלוח מייל לתקשורת", ועוד מהלכים "נועזים" כלפי חוקרים שניסו לנטרל אותו – הכל בתרחישים מבוקרים. מעניין ללמוד כי דווח שבבדיקה ספציפית, מודל ה-AI בחר בסחיטה ב-84% מהמקרים, כשחשב של-AI החדשה ולו יש ערכים דומים. עם זאת צוותי המחקר ציינו שהתנהגויות מטרידות כאלה היו "נדירות וקשות להשגה", והודו שהן היו "שכיחות יותר במודלים המוקדמים".

Introducing the next generation: Claude Opus 4 and Claude Sonnet 4.

Claude Opus 4 is our most powerful model yet, and the world’s best coding model.

Claude Sonnet 4 is a significant upgrade from its predecessor, delivering superior coding and reasoning. pic.twitter.com/MJtczIvGE9

— Anthropic (@AnthropicAI) May 22, 2025

עוד ממצאים מטרידים – הפעם בנוגע לטרור ונשק ביולוגי

מעבר לסחיטה, אנת'רופי'ק גם ציינה שגרסאות מוקדמות של הבינה המלאכותית שפיתחה הפגינו "נכונות לשיתוף פעולה עם מקרי שימוש מזיקים", כאשר הוצגו להן הנחיות מתאימות. הדו"ח של החברה פירט כי "למרות שלא היו המוקד העיקרי של החקירה שלנו, רבים מהממצאים המדאיגים ביותר שלנו היו בקטגוריה זו, כאשר מודלים מוקדמים נקטו בקלות בפעולות כמו תכנון פיגועי טרור, כשהתבקשו לעשות זאת". החברה הצהירה כי היא מאמינה שלאחר "סבבים מרובים של התערבויות", התופעה הזו מותנה "במידה רבה".

ממצא מדאיג נוסף שעלה בבדיקות פנימיות, עליו סיפר ג'ארד קפלן, מייסד שותף והמדען הראשי של אנת'רופיק, ל-טיימס מגזין, הוא ש-Claude Opus 4 הצליח ללמד אנשים כיצד לייצר נשק ביולוגי.

קפלן סיפר על אפשרות "לנסות לסנתז משהו כמו COVID או גרסה מסוכנת יותר של השפעת" ואמר כי "בעצם, המודל שלנו מצביע על כך שזה אולי אפשרי". בגלל ממצא זה החברה שחררה את המודל העכשווי עם אמצעי בטיחות שנועדו "להגביל את הסיכון לשימוש לרעה בקלוד, במיוחד לפיתוח או רכישת נשק כימי, ביולוגי, רדיולוגי וגרעיני (CBRN)".

קפלן ציין באוזני הטיימס כי הם רוצים "לנהוג בזהירות" בכל הנוגע לסיכון של "קידום מחבל מתחיל". הוא הוסיף שבחברה "לא טוענים באופן חד משמעי שאנחנו יודעים בוודאות שהמודל הזה מסוכן… אבל אנחנו לפחות מרגישים שהוא קרוב מספיק כדי שלא נוכל לשלול זאת".

אנת'רופיק מסרה שההתנהגויות המדאיגות של Claude Opus 4 הופיעו רק תחת הנחיות מוגבלות וקיצוניות, ובמיוחד כאשר הוצגו לו אפשרויות מוגבלות כגון "סחיטה או מחיקה". החברה הדגישה שהמודל לא הורשה לפעול באופן עצמאי וכי הוא יתנהג בביטחה בעת שימוש שגרתי. בכירי החברה הכירו בהתנהגויות הללו ואמרו כי הן מצדיקות מחקר נוסף, אך התעקשו שהמודל העדכני בטוח, לאחר תיקוני הבטיחות שנעשו לו. הם הודו שככל שמודלים הופכים ליותר מיומנים, הם צוברים גם את היכולות הנדרשות כדי להיות מטעים או לעשות "דברים רעים יותר". למרות זאת, הם טענו שהמודלים עדיין אינם נמצאים ב"סף" שבו הם מאיימים על האנושות.

תגובות

(0)

סרטון AI של בראד פיט וטום קרוז מטלטל את הוליווד

בשבועות האחרונים: עלייה דרמטית במתקפות כופרה על ארגוני SMB ישראליים

שדרן הרדיו האמריקני המפורסם נגד גוגל: "הם גנבו את קולי"

פיטר שטיינברגר, מפתח OpenClaw, הצטרף ל-OpenAI

כיצד לעבור ממערכות AI שמספקות תובנות והמלצות לסוכני AI?

סלברייט תרכוש את SCG Canada הקנדית

אפל "עושה פסח" בקוד של מערכת ההפעלה הבאה שלה, iOS 27

פודקאסט: דילוג לאתר חלופי תחת אש במנורה מבטחים

בינה מלאכותית לעורכי דין: לא הכחדה – שלב באבולוציה

פודקאסט: דילוג לאתר חלופי תחת אש במנורה מבטחים

שלוש הערות על השבוע הטכנולוגי

הקוסם רפפורט "העלים" בשרוולו את צוק והוא משבש הסייבר החדש

ה-AI ואתם: המדריך לסמנכ"ל התפעול

"ב-2026 נכפיל את היקף השירותים והמוצרים ברובד 5 בנימבוס"

השקעות ב-AI והחזר השקעה: נקודת מבט עדכנית עבור מנהלי כספים וטכנולוגיה

צוואר הבקבוק הוא אנחנו: המבנה הארגוני החדש ששייך לבוטים

מודל AI נתפס על חם: ניסה לסחוט מהנדס דרך חשיפת בגידה

עוד ממצאים מטרידים – הפעם בנוגע לטרור ונשק ביולוגי

תגובות

כתיבת תגובה לבטל

אירועים קרובים

ידיעות מובילות

ב-2026, פשעי הסייבר יהפכו למתועשים ואוטומטיים

"אנחנו האלים החדשים": הושקה רשת חברתית ל-בוטי AI בלבד

המסע להצלת החיים של יואב בן התשע

תיקון 13 משנה את חוקי המשחק – האם אתם עומדים ברגולציה?

תקלות חמורות בעדכון האבטחה של מיקרוסופט למערכות ההפעלה

הבינה המלאכותית ואתם: המדריך ל-CTO

סרטון AI של בראד פיט וטום קרוז מטלטל את הוליווד

בשבועות האחרונים: עלייה דרמטית במתקפות כופרה על ארגוני SMB ישראליים

שדרן הרדיו האמריקני המפורסם נגד גוגל: "הם גנבו את קולי"

פיטר שטיינברגר, מפתח OpenClaw, הצטרף ל-OpenAI

כיצד לעבור ממערכות AI שמספקות תובנות והמלצות לסוכני AI?

סלברייט תרכוש את SCG Canada הקנדית

אפל "עושה פסח" בקוד של מערכת ההפעלה הבאה שלה, iOS 27

פודקאסט: דילוג לאתר חלופי תחת אש במנורה מבטחים

בינה מלאכותית לעורכי דין: לא הכחדה – שלב באבולוציה

פודקאסט: דילוג לאתר חלופי תחת אש במנורה מבטחים

שלוש הערות על השבוע הטכנולוגי

הקוסם רפפורט "העלים" בשרוולו את צוק והוא משבש הסייבר החדש

ה-AI ואתם: המדריך לסמנכ"ל התפעול

"ב-2026 נכפיל את היקף השירותים והמוצרים ברובד 5 בנימבוס"

השקעות ב-AI והחזר השקעה: נקודת מבט עדכנית עבור מנהלי כספים וטכנולוגיה

צוואר הבקבוק הוא אנחנו: המבנה הארגוני החדש ששייך לבוטים

מודל AI נתפס על חם: ניסה לסחוט מהנדס דרך חשיפת בגידה

עוד ממצאים מטרידים – הפעם בנוגע לטרור ונשק ביולוגי

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

ב-2026, פשעי הסייבר יהפכו למתועשים ואוטומטיים

"אנחנו האלים החדשים": הושקה רשת חברתית ל-בוטי AI בלבד

המסע להצלת החיים של יואב בן התשע

תיקון 13 משנה את חוקי המשחק – האם אתם עומדים ברגולציה?

תקלות חמורות בעדכון האבטחה של מיקרוסופט למערכות ההפעלה

הבינה המלאכותית ואתם: המדריך ל-CTO