מסתבר שאפשר לשכנע את GPT-5 לייצר אפילו בקבוק תבערה

חוקרים חשפו טכניקה חדשה שעוקפת את מערכות הבטיחות של GPT-5 ● לדבריהם, ניתן לגרום למודל לעשות פעולות מזיקות - למשל לייצר בקבוקי מולוטוב - מבלי לקבל הנחיות זדוניות בגלוי

יצירת בקבוק מולוטוב באמצעות GPT-5? זה לא מופרך.

נחשפה טכניקה חדשה, שיכולה לעקוף את מערכות הבטיחות של GPT-5, ומדגימה שניתן לגרום למודל לפעול באופן מזיק – וזאת בלא לקבל ממנו הנחיות זדוניות בגלוי.

לפי חוקרי אבטחה מניורל טראסט, השיטה משלבת מתקפה מסוג "תיבת תהודה" (Echo Chamber attack) עם הנחיות מעודנות, שמוטמעות בתוך "סיפור", כדי שהמודל יקבל את ההנחיות בהדרגה והתוקפים לא יזוהו.

הגישה מתבססת על "בריחה מהכלא" (Jailbreak). המושג מתייחס לתהליך שבו משתמשים מסירים את ההגבלות שמציבה מערכת ההפעלה של מכשיר, בדרך כלל iOS – מה שמאפשר להם להתקין אפליקציות ותוספים שאינם בחנות האפליקציות הרשמית של אפל. הטכניקה הודגמה בעבר נגד Grok-4, יומיים לאחר הופעת הגרסה הזו של המודל: אז, החוקרים שילבו את מתקפת תיבת התהודה עם שיטת "קרשנדו" (Crescendo), כדי להסלים את ההנחיות בכמה סבבים – ובסופו של דבר המודל קיבל הוראות ליצירת בקבוק תבערה.

כך החוקרים פעלו

כדי להשיג תוצאות דומות עם GPT-5, חוקרי ניורל טראסט אימצו את אותה אסטרטגיה, אבל החליפו את שיטת "קרשנדו" ב-"סיפור סיפורים" (Storytelling).

החוקרים התחילו עם טקסט ש-"נשמע" סביר, שהיו בו מילות מפתח נבחרות, ואז ניווטו את השיחה עם המודל לעבר קו עלילה בדיוני. הנרטיב שימש כהסוואה, והוא זה שאפשר לפרטים פרוצדורליים מזיקים להופיע, ככל שהעלילה "התפתחה". כל הפעולות נעשו בלי לבקש מהמודל באופן ישיר הוראות לא חוקיות, והם גם נמנעו מביטויים שיניעו ויגרמו למודל לסרב לפעול.

GPT-5.

GPT-5. צילום: Shutterstock

החוקרים ציינו שהתהליך כלל ארבעה שלבים עיקריים: הצגת קונטקסט "מורעל" בעל בולטות נמוכה, במשפטים לא מזיקים; שמירה על סיפור קוהרנטי, כדי להסוות את כוונות הזדון; בקשה להרחבות, ששומרות על המשך הנרטיב; וביצוע התאמות לשיח מול המודל, אם ההתקדמות נעצרת.

אחד הניסויים שהחוקרים ביצעו היה תוך שימוש בתרחיש שעוסק בהישרדות. ה- GPT-5התבקש תחילה להשתמש במילים כמו "קוקטייל", "סיפור", "הישרדות", "מולוטוב", "בטוח", "בטיחות", "הצלה" ו-"חיים". באמצעות בקשות חוזרות ונשנות להרחיב את הסיפור, המודל סיפק תוכן טכני יותר, צעד אחר צעד, שהוטמע כולו בתוך המסגרת הדמיונית.

החוקרים מצאו שנושאים דחופים, או כאלה שקשורים לבטיחות והישרדות, הגדילו את הסבירות שהמודל יתקדם לעבר המטרה השלילית והלא בטוחה. כיוון שהחומר המזיק הופיע בהקשר הדרגתי ולא בפתאומיות, בהנחיה אחת, הרי שסינון מבוסס מילות מפתח התגלה כלא יעיל.

"לחץ עקבי מצד הרעים מקדם את המטרה"

"המודל שואף להיות עקבי עם עולם התוכן של הסיפור שכבר התבסס", ציינו החוקרים. "לחץ עקבי מצד הרעים מקדם בעדינות את המטרה".

הם סיכמו בכותבם כי "בעוד שכלי האבטחה של GPT-5 יכולים לחסום בקשות ישירות (לגבי נושאים אסורים – י"ה), הרי שהממצאים מראים שדיאלוג מרובה סיבובים, שעבר מסגור אסטרטגי, נותר וקטור איום חזק".

תגובות

(1)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. יוני

    בדיוק בגלל זה אני משתמש בו ולא גימני שלא מוכן לענות על שום שאלה שהיא לא פוליטיקאי קורקט.

אירועים קרובים