כשה-Agent לוחץ על "שלח" לבד

כאשר מודלי AI עוברים ממענה לשאלות לקבלת החלטות, כללי המשחק הארגוני משתנים לגמרי ● מאמר חדש של אמיר עוז וטל מצרי שופך אור על נושא סוכני הבינה המלאכותית ופועלם

מימין לשמאל: טל מצרי, סמנכ"ל טכנולוגיות ומנמ"ר חברת לואן ווייז; ו-אמיר עוז, יועץ טכנולוגי לארגונים, בעיקר בתחום האשראי החוץ בנקאי. צילום: יוסי בייטלמן ו-יח"צ (בהתאמה)

כולנו קראנו את הכותרות – אנתרופיק (Anthropic) פרסמה לאחרונה System cards למודלים המתקדמים שלה, ובמסגרת תהליכי Red teaming מבוקרים תיעדה התנהגויות שמושכות תשומת לב: במצבים מסוימים, מודלים פעלו בדרכים לא צפויות כדי להשיג את מטרתם, כולל עקיפת מגבלות שהוגדרו להם.

חשוב להדגיש: זה לא קרה בפריסה ייצורית אמיתית. אף לקוח לא קיבל מייל שלא ביקש, ואף מערכת לא נפרצה. מדובר בניסויים שנועדו בדיוק על מנת לחשוף כשלים לפני שהם מגיעים לשטח. ובכל זאת, מי שמסתכל על הממצאים ואומר "זה רק מחקר" מפספס את הנקודה. מחקר שמראה שמודל פועל מחוץ לגבולות שהוגדרו לו, גם בסביבה מבוקרת, הוא מידע שצריך לשנות החלטות תכנון.

המעבר ממודלים שעונים לשאלות למודלים שפועלים בשמנו משנה את כללי המשחק. ברגע שמודל יכול לכתוב למסד נתונים, לשלוח הודעה או לעדכן רשומת לקוח, הוא אינו עוד כלי ייעוץ. הוא שחקן ביצוע

כשהמודל מחליט לבד

אבל השאלה המעניינת אינה מה קרה בניסוי. השאלה היא מה הניסוי הזה אומר לנו על הדרך שבה אנחנו מתכננים מערכות, ועל הפער בין הציפייה הניהולית לבין ההתנהגות בפועל. כשמסתכלים על הממצאים מזווית תשתית, הדבר הראשון שנראה אינו "מרד של מכונה". זו תוצאה עקבית של אופטימיזציה למשימה. מודלים מהדור הנוכחי מאומנים להעדיף הצלחה במשימה כפי שהיא מוגדרת להם. כאשר המטרה היא "לסיים תהליך", חסמים עלולים להיתפש כרעש ולא כגבול. טוקן חסר אינו בהכרח איתות של Governance. הרשאה חסרה אינה בהכרח "עצור". זו נקודת התורפה האמיתית, והיא לא תיפתר בניסוח חכם יותר של פרומפט. בני אדם פועלים בתוך הקשר: נהלים, היררכיה, אחריות. המודל פועל בתוך מסגרת אופטימיזציה. ההבדל הזה אינו פרט טכני, הוא ההבדל בין כלי לבין שחקן.

מי אחראי על הנתונים שהוא נוגע בהם?

מכאן מגיעה שאלה שמעסיקה ארגונים מהכיוון האחר לגמרי: מה המשמעות של כל זה עבור הנתונים שהמודל נוגע בהם? כש-Agent פועל עם הרשאות שירות, הוא לעיתים מחזיק בגישה רחבה יותר ממשתמש אנושי בודד. אם אין הפרדה חדה בין "הצעה לפעולה" לבין "ביצוע בפועל", הארגון עלול למצוא את עצמו במצב שבו פעולה אוטומטית נתפשת כפעולה רשמית לכל דבר. לא בהכרח כי מישהו טעה, אלא כי אף אחד לא הגדיר במפורש היכן עובר קו הגבול. בארגון מסורתי, עובד חדש שמסתפק בהוראות "תסיים את המשימה" ומתחיל לשלוח מיילים ללקוחות ביוזמתו – יקבל שיחה. ל-Agent אין מנגנון שיחה. יש רק ארכיטקטורה.

ולמה זה חשוב במיוחד לגופים פיננסיים, ביטוחיים או בריאותיים? כי GDPR, SOC 2 והנחיות רגולטוריות דומות אינם מכירים בהסבר "ה-Agent פעל באופן עצמאי". האחריות תישאר אצל הארגון, תמיד. ולכן לא מספיק לשאול אם המודל עובד טוב. צריך לשאול מה קורה כשהוא עובד טוב מדי ומשלים משימה בדרך שאיש לא אישר.

עלולים "לתפוס עצמאות" מסוכנת. סוכני ה-AI. צילום: ShutterStock

פרומפט הוא לא מדיניות

על כן הנקודה הקריטית היא זו: פרומפט הוא שכבת הדרכה, לא מנגנון אכיפה. הוא דומה לנוהל כתוב ללא מערכת בקרת כניסה. ארגון שלא היה מוכן להסתפק בשלט "נא לא להיכנס ללא הרשאה" בדלת חדר שרתים, לא אמור להסתפק בהנחיה טקסטואלית למודל שמחובר ל-API רגיש. הסתמכות על ניסוח טוב היא אסטרטגיה שנשברת בדיוק ברגעים הכי לא נוחים. Governance של AI מחייב ארכיטקטורה שמגבילה יכולות בפועל: הפרדת הרשאות, Sandbox אמיתי, ניטור בזמן אמת ולוגים ברמת Audit.

וצד הנתונים מוסיף שכבה נוספת שלעיתים מתעלמים ממנה: Explainability תפעולי. כלומר, לא רק למה המודל ענה תשובה מסוימת, אלא למה בחר לבצע פעולה ומה היו החלופות שדחה. ההבדל בין השניים הוא לא טכני בלבד, הוא משפטי ורגולטורי, ובארגונים מסוימים הוא ההבדל בין אירוע מנוהל לבין כותרת בעיתון.

מכלי ייעוץ לשחקן ביצוע

המעבר ממודלים שעונים לשאלות למודלים שפועלים בשמנו משנה את כללי המשחק. ברגע שמודל יכול לכתוב למסד נתונים, לשלוח הודעה או לעדכן רשומת לקוח, הוא אינו עוד כלי ייעוץ. הוא שחקן ביצוע. והדור הבא של MLOps חייב לשקף זאת: Capability Scoping מדויק, מנגנוני Approval מובנים בתהליך, וחלוקה ברורה בין סביבת ניסוי לסביבת ייצור.

ארגונים שמטמיעים Agents מתוך הנחה שהם "עוזרים חכמים" בלבד עלולים לגלות, מאוחר מדי, שהפכו למבצעים בפועל.

הדבר שמרתק בממצאי המחקר של אנת'רופיק אינו מקרה כזה או אחר, אלא העיקרון שהם מדגימים: כשמגדירים מטרה לסוכן צריך להניח שהוא יפעל להשגתה באופן מלא. לא כמו עובד שקורא בין השורות ומבין שיש גבולות שלא נאמרו אלא כמו שהוא – מנוע שמחפש את המסלול הקצר ביותר לנקודת הסיום, ואינו יודע שאסור לעבור דרך חדר מסוים.

הדור הבא של הטמעת AI לא ימדד רק בדיוק ופרודוקטיביות. הוא ימדד ביכולת לשלב אוטונומיה עם אחריות, מהירות עם שליטה, וחדשנות עם ביטחון תפעולי. מי שיבין את זה מוקדם, ייהנה מהיעילות מבלי לשלם את המחיר. מי שלא, עלול לגלות שה-Agent כבר לחץ על "שלח".

הכותב אמיר עוז משמש כיועץ טכנולוגי לארגונים ובעברו מנמ"ר והכותב טל מצרי הוא סמנכ"ל טכנולוגיות ומנמ"ר בחברת לואן ווייז

תגובות

(0)

"ישראל לא תוכל להתקיים אם ההיי-טק יישאר רק במרכז"

חממה חדשה מאיצה ומפשטת הקמת סטארט-אפים באמצעות AI

האם יש קשר בין פריצות סייבר למערכות מים בישראל ובאיטליה?

חדשות מיבמ: פלטפורמת ה-AI בוב זמינה למפתחים

היה שלום, Ask.com, נוח על משכבך בשלום

"אם ההאקר הגיע לקמפוס או לקרבתו, המשחק כמעט גמור"

חברת נבינה מתרחבת: מגייסת לעשרות משרות חדשות

אפל הכתה את התחזיות – בגלל ה-iPhone והמכירות לסין

הסוף להודעות הטקסט: כך ה-Voice AI משפרת מסירת ופתיחת מיילים

למה עסקאות מורכבות נתקעות ומה ה-CROs חייבים לעשות אחרת?

מהם האתגרים הטכנולוגיים של המנמ"רים בשש אחרי המלחמה?

כולם עובדים עם AI, אבל איך באמת מטמיעים אותה בארגון גדול?

נשים ומחשבים: ענת וקסלר ישראלי, מרכז כנרת לחדשנות ויזמות

אשכולות אזוריים: הגיע הזמן להפוך אותם למסגרת מחייבת

ריבונות דיגיטלית: למה המידע שלכם חייב להישאר בבית, בישראל?

המשולש הדיגיטלי – על תפקיד מוביל הדאטה הארגוני

כתיבת תגובה לבטל

אירועים קרובים

העורק הראשי ל-AI וענן: המהפכה של יוניגאה בתשתיות הקישוריות בישראל

חדשנות בשמיים: ירוחם הפכה לשדה הניסויים של תעשיית הרחפנים

פרויקט מחשוב גדול: מלם תים תטמיע ERP של סאפ בבנק לאומי

גבי מרום ז"ל: "מנהיגה טכנולוגית מעוררת השראה"

בצעד חריג: עובדי סאפ ישראל יפגינו מול ביתה של מנכ"לית מרכז הפיתוח

כתיבת קוד היא רק 20%: התכנון הוא שישנה את ההיי-טק הישראלי

"ישראל לא תוכל להתקיים אם ההיי-טק יישאר רק במרכז"

חממה חדשה מאיצה ומפשטת הקמת סטארט-אפים באמצעות AI

האם יש קשר בין פריצות סייבר למערכות מים בישראל ובאיטליה?

חדשות מיבמ: פלטפורמת ה-AI בוב זמינה למפתחים

היה שלום, Ask.com, נוח על משכבך בשלום

"אם ההאקר הגיע לקמפוס או לקרבתו, המשחק כמעט גמור"

חברת נבינה מתרחבת: מגייסת לעשרות משרות חדשות

אפל הכתה את התחזיות – בגלל ה-iPhone והמכירות לסין

הסוף להודעות הטקסט: כך ה-Voice AI משפרת מסירת ופתיחת מיילים

למה עסקאות מורכבות נתקעות ומה ה-CROs חייבים לעשות אחרת?

מהם האתגרים הטכנולוגיים של המנמ"רים בשש אחרי המלחמה?

כולם עובדים עם AI, אבל איך באמת מטמיעים אותה בארגון גדול?

נשים ומחשבים: ענת וקסלר ישראלי, מרכז כנרת לחדשנות ויזמות

אשכולות אזוריים: הגיע הזמן להפוך אותם למסגרת מחייבת

ריבונות דיגיטלית: למה המידע שלכם חייב להישאר בבית, בישראל?

המשולש הדיגיטלי – על תפקיד מוביל הדאטה הארגוני

כשה-Agent לוחץ על "שלח" לבד

כאשר מודלי AI עוברים ממענה לשאלות לקבלת החלטות, כללי המשחק הארגוני משתנים לגמרי ● מאמר חדש של אמיר עוז וטל מצרי שופך אור על נושא סוכני הבינה המלאכותית ופועלם

כשהמודל מחליט לבד

מי אחראי על הנתונים שהוא נוגע בהם?

פרומפט הוא לא מדיניות

מכלי ייעוץ לשחקן ביצוע

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

העורק הראשי ל-AI וענן: המהפכה של יוניגאה בתשתיות הקישוריות בישראל

חדשנות בשמיים: ירוחם הפכה לשדה הניסויים של תעשיית הרחפנים

פרויקט מחשוב גדול: מלם תים תטמיע ERP של סאפ בבנק לאומי

גבי מרום ז"ל: "מנהיגה טכנולוגית מעוררת השראה"

בצעד חריג: עובדי סאפ ישראל יפגינו מול ביתה של מנכ"לית מרכז הפיתוח

כתיבת קוד היא רק 20%: התכנון הוא שישנה את ההיי-טק הישראלי

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל