מנגנון זיהוי הדיבור של מיקרוסופט הגיע לרמת היכולת האנושית

קורטנה, סירי, ויתר העוזרים החכמים הממוחשבים מבינים כבר לא רע מה שאנחנו אומרים להם ● היכולות הטכנולוגיות לזיהוי דיבור שמפתחת הענקית מרדמונד בהצלחה גדולה עשויות לקחת את פיתוח הבוטים כמה וכמה צעדים קדימה אל העתיד

מבין מה אומרים לו כמו בן אנוש. אילוסטרציה: BigStock

חוקרי מיקרוסופט (Microsoft) חוגגים ציון דרך מרגש לאחר 25 שנים של תהליך מפרך – מערכת זיהוי הדיבור של החברה הגיעה לשיעור שגיאה של 5.1% בלבד, מה שממצב אותה בפעם הראשונה כבעלת אותן יכולות פענוח כמו אלו של המין האנושי.

מערכות זיהוי הדיבור של ענקית התוכנה משמשות כיום בשירותים כגון העוזרת החכמה קורטנה (Cortana) וה-Speech Translator, והצורך בהן רק ילך ויגבר ככל שיכולות למידת המכונה והבינה המלאכותית יתפתחו.

רק לפני כשנה התגאתה קבוצת מחקר הדיבור ודיאלוג של מיקרוסופט על ששיפרה את המערכת שלה והגיעה לשיעור שגיאות של 5.9 אחוזים בזיהוי מלים. הנתון הזה נחשב בדרך כלל כממוצע השגיאה האנושי, אבל עבודה נוספת של חוקרים אחרים הגיעה למסקנה כי דווקא המספר 5.1 אחוזים הוא הקרוב יותר לסמן את יכולות בני האדם שהם בעלי יכולות מקצועיות לתעתוק דיבור משמיעה.

במשך למעלה מ-20 שנה שימש את החוקרים אוסף של שיחות טלפון מוקלטות, המכונה Switchboard, בכדי לבדוק את דיוקה של מערכת זיהוי הדיבור. זה נעשה על ידי הטלת משימות על בני אדם או על המכונה שהתבקשו לתעתק שיחות טלפון מוקלטות שהתנהלו בין זרים על נושאים שונים, כמו למשל על פוליטיקה או ספורט.

אוצר המלים המוכר למערכת גדל פי 5.5

על-מנת להקטין את שיעור השגיאות של המערכת בכ-12% מתוצאות מבחני הביצועים של השנה שעברה, איגד הצוות סדרה של שיפורים במודלים האקוסטיים והשפתיים המבוססים על הרשת. בנוסף לשדרוגים הכלליים של כל רכיבי המערכת, גדל אוצר המילים שהמנגנון מכיר מ-30,000 ל-165,000.

עוד תרומה משמעותית להתפתחות המנגנון הייתה השילוב שביצעו החוקרים עם מה שהם כינו "דיאלוג המבוסס על זיכרון לטווח ארוך-קצר" (dialog session-based long-short-term memory) שבמילים פשוטות משמעותו שמודל השפה החדש מאפשר למערכת להשתמש בדטת השיחות הקודמות כהיסטוריה שתסייע לה לקבוע בבירור ביטויים ספציפיים. הדבר מאפשר למערכת לזהות אם שיחה עוסקת למשל בפוליטיקה, ולקחת את זה בחשבון כשהיא שוקלת תרגומים פוטנציאליים בעבור ביטוי מסוים.

הצוות מציין כי נחוצה עדיין הרבה עבודה בתחום זיהוי הדיבור ושפריצת הדרך האחרונה אינה מכסה משימות מורכבות יותר, כמו הכרה בדיבור בסביבות רועשות או פענוח דיבור שמתאפיין במבטא דומיננטי.

"יתר על כן, יש לנו הרבה עבודה לעשות בלימוד מחשבים לא רק כיצד לתעתק את המילים המדוברות, אלא גם להבין את המשמעות ואת הכוונה שלהן", כתב עמית טכני של מיקרוסופט, קסודונג הואנג. "המעבר מזיהוי להבנת הדיבור הוא הגבול המרכזי הבא של טכנולוגיית הדיבור", הוא הבהיר.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים