בטיחות AI

אפשר לשכנע אותם לציית כפי שמשכנעים בני אדם. מודלי הבינה המלאכותית.

מחקר מצא שניתן "לאלף" AI לציית ולהפר את הכללים

החוקרים מאונ' פנסילבניה חשפו כיצד טקטיקות שכנוע אנושיות גורמות למודלי AI, כמו GPT-4o Mini, לחרוג מהכללים שנקבעו להם ● האם ה-AI פגיעה למניפולציות בדומה לבני אדם? כך נראה, על סמך הממצאים המדאיגים

החוקרים ביקשו - והוא סייע להם בפשיעה. ChatGPT.

בדיקות בטיחות ל-ChatGPT חשפו: צ'טבוט ה-AI עוזר לטרור

בדיקות של OpenAI ואנת'רופיק גילו כי מודלי הבינה המלאכותית המתקדמים שלהן מוכנים לסייע ביצירת פצצות ונשק ביולוגי וגם בפריצות סייבר ● שוב התברר כי בהיעדר רגולציה בתחום - הכל אפשרי

חובה להבין כיצד היא חושבת, לפני שיהיה מאוחר מדי. הבינה המלאכותית.

חוקרי דיפ-מיינד, OpenAI, מטא ואנת'רופיק: "לא מבינים את ה-AI"

החוקרים התאחדו במאמץ נואש להבין את ה"מחשבות" שמניעות את הטכנולוגיה המתקדמת, וזאת בזמן שמומחים מזהירים כי חלון ההזדמנויות הייחודי לניטור תהליכי החשיבה של הבינה המלאכותית - עלול להיסגר בקרוב

ניסתה לסחוט מהנדס. הבינה המלאכותית.

מודל AI נתפס על חם: ניסה לסחוט מהנדס דרך חשיפת בגידה

בבדיקות אחרונות שערכה חברת אנת'רופיק - הנתמכת על ידי אמזון - על המודל החדיש ביותר שלה, Claude Opus 4, הראה כלי ה-AI מוכנות ללכת רחוק כדי לשרוד, כולל איומים אישיים על עובד שבסך הכל רצה להחליף אותו

אירועים קרובים