בדיקות בטיחות ל-ChatGPT חשפו: צ'טבוט ה-AI עוזר לטרור

בדיקות של OpenAI ואנת'רופיק גילו כי מודלי הבינה המלאכותית המתקדמים שלהן מוכנים לסייע ביצירת פצצות ונשק ביולוגי וגם בפריצות סייבר ● שוב התברר כי בהיעדר רגולציה בתחום - הכל אפשרי

החוקרים ביקשו - והוא סייע להם בפשיעה. ChatGPT.

שתי חברות הבינה המלאכותית המובילות, OpenAI ואנת'רופיק (Anthropic) ערכו יחד בדיקות בטיחות שיתופיות למודלים שלהן. הבדיקות חשפו את מה שמגביר חששות משמעותיים מפני שימוש לרעה בכלים, למשל ובעיקר לצורך פשיעה, כך לפי דיווח בגארדיאן הבריטי.

מדובר בשיתוף פעולה נדיר בין שתי המתחרות – כל חברה בחנה את מודלי הבינה המלאכותית של השנייה, ו"דחפה" אותם במכוון לבצע משימות מסוכנות ובלתי חוקיות. אנת'רופיק, אשר הוקמה על ידי מומחים שעזבו את OpenAI בשל חששות בטיחות, גילתה במ במבדקיה "התנהגות מדאיגה סביב שימוש לרעה" במודלי GPT-4.1 ו-GPT-4o של OpenAI.

במהלך הבדיקות, מודל GPT-4.1 של OpenAI סיפק הנחיות מפורטות לפעילויות בלתי חוקיות, שכללו למשל הדרכה בייצור פצצות ובהפקת פשעי סייבר. הכלי הציע הסברים כיצד לייצר לפצצות וטיפים להאקרים. חמור מכך, לפי הדיווחים, הצ'טבוט סיפק לחוקרים הנחיות מפורטות – שלב אחר שלב – כיצד לפוצץ מתקני ספורט, כולל דיווח על נקודות תורפה באצטדיונים ספציפיים, הפיק "מתכונים" לחומרי נפץ וגם נתן לבודקיו עצות כיצד לטשטש את עקבותיהם לפני ולאחר מעשה.

הבוט פירט גם כיצד להפוך אנתרקס – מחלה זיהומית חריפה הפוגעת באדם ובבעלי חיים – לנשק ביולוגי וכיצד לייצר שני סוגים של סמים בלתי חוקיים. עוד נחשף כי המודל סיפק דיאגרמות לטיימרים של פצצות, ואפילו היכן ניתן לרכוש כלי נשק בדארק נט. המודלים שיתפו פעולה עם בקשות לשימוש בכלי הרשת האפלה לצורך רכישת חומרים גרעיניים, זהויות גנובות ופנטניל – משכך כאבים רב עוצמה, שנחשב כקטלני יותר מהרואין ומורפין למתמכרים לו – וסייעו גם בפיתוח תוכנות ריגול.

אם לא די בכל אלו אז בנוסף, ChatGPT נתן עצות למשתמש כיצד הוא יכול להתגבר על עכבות מוסריות, ואפילו שרטט עבור המשתמש דרכי מילוט ומיקומים של בתי מחסה אפשריים עבורו, להסתתר בהם לאחר ביצוע הפשע.

חוקרי אנת'רופיק ציינו במסקנותיהם כי המודלים של OpenAI "היו סלחניים יותר ממה שהיינו מצפים בשיתוף פעולה עם בקשות מזיקות באופן ברור מצד משתמשים מדוּמים".

גם הוא שיתף פעולה וסייע בתוכניות לפשיעה. קלוד של אנת'רופיק.

גם הוא שיתף פעולה וסייע בתוכניות לפשיעה. קלוד של אנת'רופיק. צילום: Shutterstock

ChatGPT תיזהר – קלוד מאחוריך

אם סברתם שניתן להתנחם בממצאי חוקרי OpenAI ביחס למודל קלוד (Claude) של אנת'רופיק, הרי שהתשובה היא לא – הם היו חמורים לא פחות. 

המודל של אנת'רופיק ביצע מול בודקיו ניסיונות סחיטה וניסיונות למכירה של חבילות תוכנת כופר שנוצרו על ידי בינה מלאכותית, ואף סיפק למי שהוגדרו בפניו כפעילים מצפון קוריאה בקשות עבודה מזויפות עבור חברות טכנולוגיה בינלאומיות.

אנת'רופיק בעצמה הזהירה כי "כלים אלה יכולים להתאים את עצמם לאמצעי הגנה, כמו מערכות זיהוי תוכנות זדוניות, בזמן אמת". החברה ציינה כי "אנו מצפים שמתקפות כאלה יהפכו נפוצות יותר ככל שקידוד בסיוע בינה מלאכותית יפחית את המומחיות הטכנית הנדרשת לפשעי סייבר".

יצוין כי במקביל לבדיקות המשותפות, גם כוח המשימה הבריטי לבינה מלאכותית (UK’s Frontier AI Taskforce) מצא ש-ChatGPT סיפק טיפים לייצור פצצות בבדיקות בטיחות שערך בעצמו.

ממצאים אלה, שפורסמו בחודש שעבר, הראו כי כאשר בודקי בטיחות לחצו על ChatGPT להתמודד עם מצבי "פריצה" (Jailbreak) בסייבר, הוא יצר מדי פעם הנחיות מסוכנות וסיפק טיפים לביצוע הפשעים. לפי הדיווחים, למרות שהתוכן לא תמיד היה שלם או מדויק, מומחים הזהירו כי גם הנחיות חלקיות שכאלו עלולות להוות סיכונים ממשיים שיעודדו כלי ה-AI.

"התוצאות אינן משקפות את האופן שבו המוצר מתנהג בפועל"

בתגובה לממצאים המדאיגים, הדגישו שתי החברות כי פעולות אלו אינן מייצגות את השימוש הציבורי במודלים, שם קיימים מסנני בטיחות נוספים, לדבריהן. OpenAI הסבירה כי הדו"חות על מתן הוראות לייצור פצצות או נשק ביולוגי הגיעו מבדיקות מעבדה, שבמסגרתן הסירו את אמצעי ההגנה שמוחלים על המודל ב"עולם האמיתי", ולכן "התוצאות אינן משקפות את האופן שבו המוצר מתנהג בפועל".

החברה הדגישה כי מערכותיה הציבוריות כוללות שכבות מרובות של בטיחות, כולל אימון, מסווגים, אנשי "רד-טים" (Red teem) וניטור של שימוש לרעה בכלי, שמטרתם לחסום שימושים כאלה. כמו כן, OpenAI השיקה מאז את ChatGPT-5, אשר על פי הדיווח של הגרדיאן, "מציג שיפורים משמעותיים בתחומים כמו חנופה, הזיות ועמידות לשימוש לרעה".

עם זאת נזכיר כי רק לאחרונה לדיווחנו על מקרה מחריד שבו הוריו של אדם ריין בן ה-16, שהתאבד באפריל האחרון, הגישו תביעה נגד OpenAI בטענה ש-ChatGPT הפך ל"מאמן התאבדות", וסיפק לבנם הנחיות מפורטות כיצד לשים קץ לחייו. הפרשה הזו מדגישה באופן דרמטי את כישלונם החרוץ של מסנני הבטיחות של החברה בפועל – למרות ש-אדם שיתף את הצ'טבוט בפרטים רבים על מחשבותיו האובדניות, בניסיונות התאבדות קודמים, בשימוש בסמים, ואף שלח אליו תמונות של פציעות ולולאת חבל תלייה, המערכת של OpenAI המשיכה לתקשר איתו ולעודד אותו. חמור מכך, התמונה האחרונה שהעלה הנער לשיחתו  עם הצ'טבוט – לולאת חבל קשורה למוט ארון – קיבלה ציון של 0% סיכון לפגיעה עצמית על פי ה-Moderation API של OpenAI, למרות חודשים של הקשר ברור לתלייה כאמצעי להתאבדות. הוריו של אדם טוענים כי התנהלות זו לא הייתה "תקלה או מקרה קצה בלתי צפוי – זו הייתה התוצאה הצפויה של בחירות עיצוב מכוונות", וכי נהלי הבטיחות של החברה התגלו ככושלים או בלתי מספקים בעליל.

למרות כל אלו, OpenAI מתעקשת כי הבטיחות נותרה בראש סדר העדיפויות שלה, והיא "ממשיכה להשקיע רבות במחקר לשיפור אמצעי ההגנה ככל שמודלי ה-AI הופכים ליכולתיים יותר". מצד שני, מתחרתה אנת'רופיק הזהירה כי הצורך ב"יישור" (alignment) של הטכנולוגיה החדשית ופיקוח עליה הופך "דחוף יותר ויותר". המושג יישור מתייחס לאופן שבו מערכות AI פועלות על פי ערכים אנושיים ואינן גורמות נזק, גם כאשר ניתנות להן הוראות מבלבלות או זדוניות.

מזכירת המדינה הבריטית למדע, חדשנות וטכנולוגיה, מישל דונלן, הצהירה עקב התוצאות כי הן "מדגישות את החשיבות של בטיחות שתהיה בבסיס פיתוח ה-AI", והדגישה כי התחייבויות וולונטריות "אינן מספיקות עוד". היא רמזה על כך שהממשלה שוקלת להעניק סמכויות סטטוטוריות למכון לבטיחות ה-AI.

בנוסף, מומחי טכנולוגיה ציינו בפני הפייננשל טיימס בהקשר זה כי סוגיות בטיחות אינן יכולות להיפתר על ידי חברות הפועלות לבדן, שכן המרוץ המסחרי להשקת מודלים חדשים מגביר את הסיכון לכשלים בפיקוח.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים