"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – אשליה"
תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס: "ככל שהמודלים חכמים יותר - כך תהליך הבדיקה שלהם נהיה מורכב יותר"
"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – היא אשליה. דווקא ככל שהמודלים חכמים יותר, כך תהליך הבדיקה שלהם נהיה מורכב יותר", כך אמר תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס (Ness).
זנו דיבר בכנס שערכה החברה אתמול (ד') ברעננה, והציג בו תהליך מתודולוגי לבדיקת מערכות מבוססות בינה מלאכותית, תוך התמקדות בצ'אטבוטים מבוססי LLM, ובמיוחד כאלה המשלבים מנגנון RAG (ר"ת Retrieval Augmented Generation). לדברי זנו, "המעבר מעולם של בדיקות סטנדרטיות לעולם שבו התשובה פתוחה ונסמכת על הקשר וידע משתנים – מחייב מערך כלים חדש לגמרי".
זנו תיאר את התהליך המלא של עיבוד השאילתה בצ'אטבוטים, החל מהשלב שבו הטקסט עובר ניתוח תחבירי, דרך המרתו לווקטורים ולהבנה סמנטית, ועד לניסוח תשובה טבעית בשפה האנושית. הוא הסביר כיצד RAG מאפשר לצ'אטבוטים להתבסס על מידע ארגוני פנימי – ולא רק על מה שנלמד בשלב האימון. "אי אפשר לצפות שמודל LLM כללי יכיר את המידע הפנימי של הארגון, או את הפרטים האישיים של הלקוחות", אמר, "ובדיוק לשם כך נועד מנגנון ה-RAG: לשלוף מידע בזמן אמת, לצרף אותו לפרומפט, ולאפשר לבוט לספק תשובה רלוונטית, עשירה ומדויקת".
זנו ציין שורת אירועים מהעבר, בהם מערכות AI התנהגו באופן לא צפוי: Tay של מיקרוסופט, שהפיץ תכנים גזעניים; מערכת הגיוס של אמזון שהפלתה נשים; וכן, מקרים שבהם צ'אטבוטים המציאו מידע ואף יצרו תיאוריות קונספירציה.
"ישנם שלושה צירים עיקריים של סיכונים", אמר, "אבטחת מידע ופרטיות – כולל חשיפת מידע רגיש, חוסר מנגנוני סינון ובקרות גישה, וחשיפה למניפולציות מצד משתמשים; אתיקה והוגנות – האם המערכת מגיבה באופן רגיש? האם היא מפלה? האם היא מחזקת סטריאוטיפים?". אזור הסיכון השלישי, לדבריו, הוא "תפעול וביצועים – האם הבוט באמת מספק תשובות נכונות, עקביות ורלוונטיות?"
זנו פירט את המתודולוגיה לבדיקות פונקציונליות של צ'אטבוטים, תוך שימוש במערך שאלות, תשובות בפועל, Ground Truth, והקשר שנשלף על ידי ה-RAG, עם הצגת כמה מדדים – לבחינת איכות ה-retrieval, להערכת איכות התשובה, לטובת בדיקה אם המודל "המציא" מידע בלא להתבסס על מקור, וכן – לוודא שהבוט עונה באופן עקבי גם כששואלים אותה שאלה בניסוחים שונים.
זנו סיים בהדגמה של כלי קוד פתוח בשם RAGAS, לבדיקת בוטים מבוססי LLM ו-RAG, והדגים תהליך מלא של בדיקות על תרחישים אמיתיים.
תהליכי בקרה ומדידה
אלמוג כהן, מנהל תחום עסקי, חטיבת הבדיקות, האוטומציה וה-AI, נס, דיבר על ההבדלים והמימושים של מתודולוגיות המדידה OKR – לעומת KPI בעולמות הפיתוח והבדיקות. "ארגון הרואה ערך בהליך שיפור מתמיד נדרש ומחויב להגדיר מטרות שאפתניות, אך שבמקביל ניתנות למדידה, ולקדם תהליכי בקרה ברמה השוטפת, כדי לקבל אינדיקציות על התקדמות ההליך", ציין כהן.

אלמוג כהן, מנהל תחום עסקי, חטיבת הבדיקות, האוטומציה וה-AI בנס. צילום: יח"צ
לדבריו, "נדרשת הגדרה של מטרות ברורות, נהירות, המאפשרות לבחון בכל רגע נתון את סטטוס ההליך, ולבצע, ככל הנדרש, את האימוצים הדרושים להצלחתו". כהן סיכם: "תהליכי בקרה ומדידה, ועבודה במתודולוגיית בקרה סדורה, מספקים לנו וללקוחותינו הבנה על האסטרטגיה, החזון, דרכי המימוש, והתוצאות בפועל".
עומר דרור, סמנכ"ל חטיבת AI, הבדיקות והאוטומציה של נס, פתח את האירוע ואמר, שהחטיבה מונה 800 מהנדסי בדיקות ואוטומציה, "רובם המכריע במתכונת שירותים מנוהלים שאנו מעניקים לעשרות ארגונים מכלל המשק". עם לקוחות החטיבה, ציין, נמנים חברות היי-טק, גופים מהמגזר הביטחוני, בנקים, משרדי ממשלה ועוד. "אנו מנסים לייצר מכנה משותף, ולעזור ללקוחות בהתבסס על ניסיון שצברנו מלקוחות אחרים", סיכם.

את האירוע חתם יזהר שי, לשעבר שר המדע והטכנולוגיה, ששכל את בנו ירון ז"ל ב-7 באוקטובר בכרם שלום. לזכרו, ולהנצחתם של חללים רבים נוספים, שי הוא ממקימי מיזם "אוקטובר הבא".











תגובות
(0)