ד"ר ג'יימס לארסון: "סירי טובה בהבנת דיבור וסבירה בדיאלוג – אבל זה עדיין לא מספק"

"תוכנות זיהוי הדיבור לא מבינות את האנשים נכון", אמר ד"ר לארסון, יושב ראש הוועדה להגדרת סטנדרטים בתחום במסגרת ה-World Wide Web ● לדבריו, "כדי להתגבר על הבעיה יש לאמן את מערכת זיהוי הקול כך שתזהה את הקול הספציפי של המשתמש ועלינו ללמוד לדבר ברור, כך שהמחשב יוכל להבין אותנו טוב יותר"

"יישומי זיהוי הדיבור, אפילו סירי (Siri), סובלים מבעיות. התוכנות לא מבינות את האנשים נכון", כך אמר ד"ר ג'יימס לארסון, יושב ראש הוועדה להגדרת סטנדרטים בתחום במסגרת ה-World Wide Web.

ד"ר לארסון שימש כיושב ראש SpeechTEK, הכנס השלישי לעיבוד דיבור, שקיים לפני ימים אחדים המרכז לעיבוד שפה במכללת אפקה להנדסה, בראשותו של פרופ' עמי מויאל. הכנס התקיים בשיתוף ארגון AVIOS ישראל, שבראשו עומדת ד"ר נאוה שקד. כוכב הכנס היה הרובוט אפי, שהציג את המרצים וניהל דיאלוג עם המנחים – חוקרים במרכז.

לדברי ד"ר לארסון, "כדי להתגבר על הבעיה, ראשית יש לאמן את מערכת זיהוי הקול כך שתזהה את הקול הספציפי של המשתמש. שנית, עלינו ללמוד לדבר ברור, כך שהמחשב יוכל להבין אותנו טוב יותר. יש גם דברים טכניים, כמו מיקרופונים טובים יותר, שיוכלו לסייע בזיהוי הקול. הדבר הטוב ביותר הוא לפתח דיאלוגים חכמים כדי לסייע למשתמש לדעת מהן המילים שהמחשב מכיר. המחשב שואל את המשתמש שאלות שהוא יכול לענות עליהן במספר קטן של תשובות. הגבלת המילים מאיצה את תהליך הזיהוי, כי המחשב צריך לעשות פחות עבודה כדי לגלות את המילה. זה גם מגביר את הדיוק. לפיכך, לא פלא שהיישום הראשי של זיהוי קול נמצא במערכות IVR, שמסתייעים בהן כדי לקצר את עץ ההחלטות (למשל שירות פנגו, שבו אומרים את שם העיר – א.ב.)".

פרופ' סאדאוקי פורוי מהמכון הטכנולוגי בטוקיו. צילום יח"צ: מור שעשוע"סירי טובה בהבנת דיבור וסבירה בדיאלוג, אבל שני הדברים ביחד עדיין לא מספקים", הוסיף. "צריך להתקדם הן בזיהוי הקול והן בטכניקות להחלפת מידע בין המשתמש והמחשב. עוד כוח מיחשוב תמיד יעזור ובנוסף, לא יזיק לספק לתוכנה עוד מידע על הנושאים שאנשים מדברים עליהם בעולם האמיתי".

זיהוי דיבור בשפות לא מערביות
פרופ' סאדאוקי פורוי מהמכון הטכנולוגי בטוקיו דיבר על האתגר בזיהוי דיבור בשפות לא מערביות. הוא ציין שביפנית, אי אפשר להושיב קלדן שיקליד את דברי הדוברים בזמן אמת, משום שיש ה אלפי אותיות. לכן, תחנות השידור נעזרות בתוכנות שפיתח כדי לספק כתוביות לכבדי שמיעה ולתמלל את השידורים.

הוא אמר ש-"יש כיום ברחבי העולם יותר מ-6,000 שפות מדוברות, שרובן מרוכזות באסיה. לכל שפה יש חותם אקוסטי משלה, כמו גם מאפיינים לשוניים הדורשים טכניקות מידול ייחודיות". לדבריו, "התמקדנו בבניית מערכות זיהוי אוטומטיות עבור השפות אינודנזית, תאית, סינית ויפנית. לכל אחת מהשפות האלה יש בעיות משלה. הבעיה באינדונזית, למשל, היא לזהות מילים השאולות מאנגלית, עקב ההגייה השונה. בתאית אין רווחים בין המילים, ולכן נאלצו החוקרים לפתח יחידות דמויות מילים. בסינית הבעיה היא בהצגת ביטויים מקוצרים לשמות של ארגונים לצורך שיפור ביצוע מערכות החיפוש הקולי".

ד"ר שקד ציינה ש-AVIOS עוסקת בהפצת ידע וניסיון בזיהוי דיבור. "זה לא תחום בפני עצמו", אמרה. "זו טכנולוגיה שמאפשרת לעשות דברים טובים יותר. למשל, היא מאפשרת גישה והפעלה של יישומים בתוך המכשירים הניידים, ובמוקדי שירות לקוחות היא מאפשרת ביצוע שירותים עצמיים וקיצור זמן השיחה, תוך ייעול עבודת המוקדן והתפנותו למומחיות".

פרופ' מויאל ציין שייחודיות הכנס היא בעיקר בשילוב בין המחקר האקדמי, הפיתוח בתעשייה והצגה של התקנות על ידי לקוחות קצה.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים