"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – אשליה"

תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס: "ככל שהמודלים חכמים יותר - כך תהליך הבדיקה שלהם נהיה מורכב יותר"

CTO חטיבת הבדיקות והאוטומציה בנס.צילום: יח"צ

"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – היא אשליה. דווקא ככל שהמודלים חכמים יותר, כך תהליך הבדיקה שלהם נהיה מורכב יותר", כך אמר תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס (Ness).

זנו דיבר בכנס שערכה החברה אתמול (ד') ברעננה, והציג בו תהליך מתודולוגי לבדיקת מערכות מבוססות בינה מלאכותית, תוך התמקדות בצ'אטבוטים מבוססי LLM, ובמיוחד כאלה המשלבים מנגנון RAG (ר"ת Retrieval Augmented Generation). לדברי זנו, "המעבר מעולם של בדיקות סטנדרטיות לעולם שבו התשובה פתוחה ונסמכת על הקשר וידע משתנים – מחייב מערך כלים חדש לגמרי".

זנו תיאר את התהליך המלא של עיבוד השאילתה בצ'אטבוטים, החל מהשלב שבו הטקסט עובר ניתוח תחבירי, דרך המרתו לווקטורים ולהבנה סמנטית, ועד לניסוח תשובה טבעית בשפה האנושית. הוא הסביר כיצד RAG מאפשר לצ'אטבוטים להתבסס על מידע ארגוני פנימי – ולא רק על מה שנלמד בשלב האימון. "אי אפשר לצפות שמודל LLM כללי יכיר את המידע הפנימי של הארגון, או את הפרטים האישיים של הלקוחות", אמר, "ובדיוק לשם כך נועד מנגנון ה-RAG: לשלוף מידע בזמן אמת, לצרף אותו לפרומפט, ולאפשר לבוט לספק תשובה רלוונטית, עשירה ומדויקת".

זנו ציין שורת אירועים מהעבר, בהם מערכות AI התנהגו באופן לא צפוי: Tay של מיקרוסופט, שהפיץ תכנים גזעניים; מערכת הגיוס של אמזון שהפלתה נשים; וכן, מקרים שבהם צ'אטבוטים המציאו מידע ואף יצרו תיאוריות קונספירציה.

"ישנם שלושה צירים עיקריים של סיכונים", אמר, "אבטחת מידע ופרטיות – כולל חשיפת מידע רגיש, חוסר מנגנוני סינון ובקרות גישה, וחשיפה למניפולציות מצד משתמשים; אתיקה והוגנות – האם המערכת מגיבה באופן רגיש? האם היא מפלה? האם היא מחזקת סטריאוטיפים?". אזור הסיכון השלישי, לדבריו, הוא "תפעול וביצועים – האם הבוט באמת מספק תשובות נכונות, עקביות ורלוונטיות?"

זנו פירט את המתודולוגיה לבדיקות פונקציונליות של צ'אטבוטים, תוך שימוש במערך שאלות, תשובות בפועל, Ground Truth, והקשר שנשלף על ידי ה-RAG, עם הצגת כמה מדדים – לבחינת איכות ה-retrieval, להערכת איכות התשובה, לטובת בדיקה אם המודל "המציא" מידע בלא להתבסס על מקור, וכן – לוודא שהבוט עונה באופן עקבי גם כששואלים אותה שאלה בניסוחים שונים.

זנו סיים בהדגמה של כלי קוד פתוח בשם RAGAS, לבדיקת בוטים מבוססי LLM ו-RAG, והדגים תהליך מלא של בדיקות על תרחישים אמיתיים.

תהליכי בקרה ומדידה

אלמוג כהן, מנהל תחום עסקי, חטיבת הבדיקות, האוטומציה וה-AI, נס, דיבר על ההבדלים והמימושים של מתודולוגיות המדידה OKR – לעומת KPI בעולמות הפיתוח והבדיקות. "ארגון הרואה ערך בהליך שיפור מתמיד נדרש ומחויב להגדיר מטרות שאפתניות, אך שבמקביל ניתנות למדידה, ולקדם תהליכי בקרה ברמה השוטפת, כדי לקבל אינדיקציות על התקדמות ההליך", ציין כהן.

אלמוג כהן, מנהל תחום עסקי, חטיבת הבדיקות, האוטומציה וה-AI בנס. צילום: יח"צ

לדבריו, "נדרשת הגדרה של מטרות ברורות, נהירות, המאפשרות לבחון בכל רגע נתון את סטטוס ההליך, ולבצע, ככל הנדרש, את האימוצים הדרושים להצלחתו". כהן סיכם: "תהליכי בקרה ומדידה, ועבודה במתודולוגיית בקרה סדורה, מספקים לנו וללקוחותינו הבנה על האסטרטגיה, החזון, דרכי המימוש, והתוצאות בפועל".

עומר דרור, סמנכ"ל חטיבת AI, הבדיקות והאוטומציה של נס, פתח את האירוע ואמר, שהחטיבה מונה 800 מהנדסי בדיקות ואוטומציה, "רובם המכריע במתכונת שירותים מנוהלים שאנו מעניקים לעשרות ארגונים מכלל המשק". עם לקוחות החטיבה, ציין, נמנים חברות היי-טק, גופים מהמגזר הביטחוני, בנקים, משרדי ממשלה ועוד. "אנו מנסים לייצר מכנה משותף, ולעזור ללקוחות בהתבסס על ניסיון שצברנו מלקוחות אחרים", סיכם.

את האירוע חתם יזהר שי, לשעבר שר המדע והטכנולוגיה, ששכל את בנו ירון ז"ל ב-7 באוקטובר בכרם שלום. לזכרו, ולהנצחתם של חללים רבים נוספים, שי הוא ממקימי מיזם "אוקטובר הבא".

תגובות

(0)

מהפכת ה-AI באורקל: 30 אלף פוטרו במייל פתאומי

מיהם שיאני השכר בהיי-טק הישראלי?

"בטווח הקרוב, לתוקפים יש יתרון בשימוש במודלים וסוכני AI"

פרופ נאוה רצון מונתה ליו"רית המועצה הלאומית למחקר ופיתוח

אלו"ט משיקה סוכנת AI למיצוי זכויות עבור אוטיסטים

Linx Security השלימה סבב גיוס של 50 מיליון דולר

מנכ"ל זירוקס החדש: לואי פסטור

מיקרוסופט מציגה שימוש בכמה מודלים במקביל במקום במודל אחד

מהגראז ועד ל-iPhone: אפל חוגגת יובל של יזמות וטכנולוגיה

נשים ומחשבים: רונית פטר, מימון ישיר

אבטחה בעידן הפנורמי: ה-CISO חייב להפסיק להסתכל דרך חור המנעול

ההיי-טק הישראלי צריך ללמוד מהמגזר השלישי על התנהלות בחירום

סייבר בימי מלחמה: מדוע מודעות מצבית היא קו ההגנה הראשון של ישראל?

כשהאלגוריתם מתחיל לשפוט את עצמו

ה-IT במלחמה: עברנו את פרעה – אנחנו עוברים גם את זה

סופה של סורה: למה OpenAI הרגה את ה"צעצוע" הכי מרגש שלה?

"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – אשליה"

תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס: "ככל שהמודלים חכמים יותר - כך תהליך הבדיקה שלהם נהיה מורכב יותר"

תהליכי בקרה ומדידה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

ידיעות מובילות

תוצאות שיא ל-וואן: ההכנסות והרווח הנקי רשמו עליות שנתיות

וואן טכנולוגיות תפיץ ותשווק את פתרונות מייק בישראל

כך ה-IT סייע לטפל בפגיעת הטיל בבית שמש

אריק בן יהודה מונה למנכ"ל ווביקס מקבוצת וואן טכנולוגיות

"רתמנו את הנתונים לתובנות מצילות חיים"

יש לכם שאלות על טיסות במלחמה? הבוט של אל על ישיב עליהן

מהפכת ה-AI באורקל: 30 אלף פוטרו במייל פתאומי

מיהם שיאני השכר בהיי-טק הישראלי?

"בטווח הקרוב, לתוקפים יש יתרון בשימוש במודלים וסוכני AI"

פרופ נאוה רצון מונתה ליו"רית המועצה הלאומית למחקר ופיתוח

אלו"ט משיקה סוכנת AI למיצוי זכויות עבור אוטיסטים

Linx Security השלימה סבב גיוס של 50 מיליון דולר

מנכ"ל זירוקס החדש: לואי פסטור

מיקרוסופט מציגה שימוש בכמה מודלים במקביל במקום במודל אחד

מהגראז ועד ל-iPhone: אפל חוגגת יובל של יזמות וטכנולוגיה

נשים ומחשבים: רונית פטר, מימון ישיר

אבטחה בעידן הפנורמי: ה-CISO חייב להפסיק להסתכל דרך חור המנעול

ההיי-טק הישראלי צריך ללמוד מהמגזר השלישי על התנהלות בחירום

סייבר בימי מלחמה: מדוע מודעות מצבית היא קו ההגנה הראשון של ישראל?

כשהאלגוריתם מתחיל לשפוט את עצמו

ה-IT במלחמה: עברנו את פרעה – אנחנו עוברים גם את זה

סופה של סורה: למה OpenAI הרגה את ה"צעצוע" הכי מרגש שלה?

"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – אשליה"

תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס: "ככל שהמודלים חכמים יותר - כך תהליך הבדיקה שלהם נהיה מורכב יותר"

תהליכי בקרה ומדידה

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

תוצאות שיא ל-וואן: ההכנסות והרווח הנקי רשמו עליות שנתיות

וואן טכנולוגיות תפיץ ותשווק את פתרונות מייק בישראל

כך ה-IT סייע לטפל בפגיעת הטיל בבית שמש

אריק בן יהודה מונה למנכ"ל ווביקס מקבוצת וואן טכנולוגיות

"רתמנו את הנתונים לתובנות מצילות חיים"

יש לכם שאלות על טיסות במלחמה? הבוט של אל על ישיב עליהן

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל