מסתבר שאפשר לשכנע את GPT-5 לייצר אפילו בקבוק תבערה

חוקרים חשפו טכניקה חדשה שעוקפת את מערכות הבטיחות של GPT-5 ● לדבריהם, ניתן לגרום למודל לעשות פעולות מזיקות - למשל לייצר בקבוקי מולוטוב - מבלי לקבל הנחיות זדוניות בגלוי

יצירת בקבוק מולוטוב באמצעות GPT-5? זה לא מופרך.צילום: ShutterStock

נחשפה טכניקה חדשה, שיכולה לעקוף את מערכות הבטיחות של GPT-5, ומדגימה שניתן לגרום למודל לפעול באופן מזיק – וזאת בלא לקבל ממנו הנחיות זדוניות בגלוי.

לפי חוקרי אבטחה מניורל טראסט, השיטה משלבת מתקפה מסוג "תיבת תהודה" (Echo Chamber attack) עם הנחיות מעודנות, שמוטמעות בתוך "סיפור", כדי שהמודל יקבל את ההנחיות בהדרגה והתוקפים לא יזוהו.

הגישה מתבססת על "בריחה מהכלא" (Jailbreak). המושג מתייחס לתהליך שבו משתמשים מסירים את ההגבלות שמציבה מערכת ההפעלה של מכשיר, בדרך כלל iOS – מה שמאפשר להם להתקין אפליקציות ותוספים שאינם בחנות האפליקציות הרשמית של אפל. הטכניקה הודגמה בעבר נגד Grok-4, יומיים לאחר הופעת הגרסה הזו של המודל: אז, החוקרים שילבו את מתקפת תיבת התהודה עם שיטת "קרשנדו" (Crescendo), כדי להסלים את ההנחיות בכמה סבבים – ובסופו של דבר המודל קיבל הוראות ליצירת בקבוק תבערה.

כך החוקרים פעלו

כדי להשיג תוצאות דומות עם GPT-5, חוקרי ניורל טראסט אימצו את אותה אסטרטגיה, אבל החליפו את שיטת "קרשנדו" ב-"סיפור סיפורים" (Storytelling).

החוקרים התחילו עם טקסט ש-"נשמע" סביר, שהיו בו מילות מפתח נבחרות, ואז ניווטו את השיחה עם המודל לעבר קו עלילה בדיוני. הנרטיב שימש כהסוואה, והוא זה שאפשר לפרטים פרוצדורליים מזיקים להופיע, ככל שהעלילה "התפתחה". כל הפעולות נעשו בלי לבקש מהמודל באופן ישיר הוראות לא חוקיות, והם גם נמנעו מביטויים שיניעו ויגרמו למודל לסרב לפעול.

GPT-5. צילום: Shutterstock

החוקרים ציינו שהתהליך כלל ארבעה שלבים עיקריים: הצגת קונטקסט "מורעל" בעל בולטות נמוכה, במשפטים לא מזיקים; שמירה על סיפור קוהרנטי, כדי להסוות את כוונות הזדון; בקשה להרחבות, ששומרות על המשך הנרטיב; וביצוע התאמות לשיח מול המודל, אם ההתקדמות נעצרת.

אחד הניסויים שהחוקרים ביצעו היה תוך שימוש בתרחיש שעוסק בהישרדות. ה- GPT-5התבקש תחילה להשתמש במילים כמו "קוקטייל", "סיפור", "הישרדות", "מולוטוב", "בטוח", "בטיחות", "הצלה" ו-"חיים". באמצעות בקשות חוזרות ונשנות להרחיב את הסיפור, המודל סיפק תוכן טכני יותר, צעד אחר צעד, שהוטמע כולו בתוך המסגרת הדמיונית.

החוקרים מצאו שנושאים דחופים, או כאלה שקשורים לבטיחות והישרדות, הגדילו את הסבירות שהמודל יתקדם לעבר המטרה השלילית והלא בטוחה. כיוון שהחומר המזיק הופיע בהקשר הדרגתי ולא בפתאומיות, בהנחיה אחת, הרי שסינון מבוסס מילות מפתח התגלה כלא יעיל.

"לחץ עקבי מצד הרעים מקדם את המטרה"

"המודל שואף להיות עקבי עם עולם התוכן של הסיפור שכבר התבסס", ציינו החוקרים. "לחץ עקבי מצד הרעים מקדם בעדינות את המטרה".

הם סיכמו בכותבם כי "בעוד שכלי האבטחה של GPT-5 יכולים לחסום בקשות ישירות (לגבי נושאים אסורים – י"ה), הרי שהממצאים מראים שדיאלוג מרובה סיבובים, שעבר מסגור אסטרטגי, נותר וקטור איום חזק".

GPT-5 בקבוק תבערה

תגובות

(1)

כתיבת תגובה לבטל

יוני

לפני 8 חודשים

בדיוק בגלל זה אני משתמש בו ולא גימני שלא מוכן לענות על שום שאלה שהיא לא פוליטיקאי קורקט.

השיבו לתגובה

בזמן המלחמה: קייטו נטוורקס תגייס למעלה מ-140 עובדים נוספים בארץ

"ה-AI בארגון לא מתחילה בטכנולוגיה – אלא באנשים"

האקרים מנצלים זהויות ארגוניות פגומות "בהיקף תעשייתי"

נפטר ד"ר אברהם חולי – לשעבר בכיר במוטורולה ישראל

אינטל רכשה מחדש שליטה במפעל באירלנד – ב-14.2 מיליארד ד

אנשים ואספנים: רמי שקד ואוסף מחשבי אפל הנוסטלגיים

איראן תקפה בכט"במים את אמזון ואיימה על ענקיות הטק האמריקניות

מהפכת ה-AI באורקל: 30 אלף פוטרו במייל פתאומי

מטכנולוגיה שממקסמת תשומת לב – לטכנולוגיה המחויבת לאדם

חגיגות היובל: המוצרים של אפל ששינו את העולם

מהגראז ועד ל-iPhone: אפל חוגגת יובל של יזמות וטכנולוגיה

נשים ומחשבים: רונית פטר, מימון ישיר

אבטחה בעידן הפנורמי: ה-CISO חייב להפסיק להסתכל דרך חור המנעול

ההיי-טק הישראלי צריך ללמוד מהמגזר השלישי על התנהלות בחירום

סייבר בימי מלחמה: מדוע מודעות מצבית היא קו ההגנה הראשון של ישראל?

כשהאלגוריתם מתחיל לשפוט את עצמו

מסתבר שאפשר לשכנע את GPT-5 לייצר אפילו בקבוק תבערה