דייוויד תומפסון, ספינווקס: "בעוד כמה שנים לא יקשיבו להודעות קוליות – הן יומרו לטקסט"
"משימת הפיכת קול לטקסט איננה דבר טריוויאלי, שכן לאנשים יש מבטאים שונים, אינטונציות שונות וקצב דיבור שונה", אמר תומפסון, המשמש כסגן נשיא בכיר לטכנולוגיות דיבור בחברה הבריטית, בכנס השנתי של ארגון AVIOS ישראל, שנערך הבוקר (ד') ● לדבריו, "אנשים גם משתמשים המון בסלנג - דבר שהופך את המשימה למורכבת עוד יותר" ● בכנס הוצגה מעבדה שנפתחה במכללת אפקה ועוסקת בפיתוח טכנולוגיה לזיהוי דיבור והמרתו לטקסט, בין היתר במטרה לתמלל ישיבות ושיחות טלפון
בעוד שנים ספורות, אולי אף פחות, לא נידרש עוד להקשיב להודעות הקוליות שאנשים משאירים במשיבון שלנו. זאת, משום שהמסרים הללו יהפכו לטקסט, מה שיאפשר, למשל, לקרוא אותם בזמן ישיבות, או במצבים אחרים שבהם אי אפשר להקשיב להודעות במענה הקולי. את הדברים הללו הסביר דייויד תומפסון, סגן נשיא בכיר לטכנולוגית דיבור בחברה הבריטית ספינווקס (SpinVox), המפתחת מערכת כזו, ותטמיע אותה בחברות סלולר. תומפסון דיבר בכנס השנתי השישי של ארגון AVIOS ישראל, שהתקיים הבוקר (ד') במכללת אפקה בתל אביב, בהפקת קבוצת אנשים ומחשבים.
"מסתבר שמשימת הפיכת קול לטקסט איננה דבר טריוויאלי", אמר. "לאנשים יש מבטאים שונים, אינטונציות שונות, קצב דיבור שונה. אנשים גם משתמשים המון בסלנג – דבר שהופך את המשימה למורכבת עוד יותר. במסגרת הפיתוח המרנו 150 מיליון מסרים ופיתחנו תוכנה חכמה שלומדת מהניסיון, ובמקרה שהיא לא מזהה מילה מסוימת – היא מעבירה אותה למפעיל אנושי שמתמלל אותה, וכך תכיר אותה המערכת בהמשך. עוד מעסיקה החברה צוות בלשנים שמוסיף מידי שנה למילונים השונים כ-7,000 מילים חדשות".
הוא הוסיף, כי "חצינו את המכשולים הטכנולוגיים. לפעולת התמלול נדרש כוח עיבוד רב מאוד שהיום מצוי בידינו. בעתיד נוכל להשתמש בטכנולוגיה ליישומים הרבה יותר מרתקים כגון דיבור חופשי עם המחשב מבלי לדעת אפילו שמדובר במחשב, זו תהיה מערכת מבוססת שיחה חופשית".
בתשובה לשאלת אנשים ומחשבים למה קשה למחשב לזהות דיבור, אמר תומפסון, כי "אנחנו, בני האדם, מאוד חכמים. העיבוד שאנחנו עושים במוח שלנו הוא ממש מדהים. כדי ללמד מחשב כיצד לעשות זאת דרוש תהליך מסובך. השפות הן עניין מסובך". הוא הוסיף, כי "לפעמים אני מתפלא שאנחנו יכולים להבין זה את זה. אנחנו צריכים לדעת דקדוק, אקוסטיקה, להתמודד עם רעש ועם דיבור לא ברור, וכן עם הנחתות של הקול בטלפון הסלולרי. ללמד מחשבים איך לעשות זאת לקח עשרות שנים של עבודה ואנחנו נהנים מהניסיון המצטבר".
ד"ר עמי מויאל, ראש המרכז לעיבוד שיחה במכללה האקדמית אפקה, הציג את המעבדה לתמלול דיבור ספונטני שהקימה המכללה בזכות מענק שניתן במסגרת פרויקט מגנטון של לשכת המדען הראשי במשרד התמ"ת. לדבריו, המעבדה הוקמה מתוך מטרה שיהיה מוקד ידע בתחום, ושהמידע יועבר מהאקדמיה לתעשיה. המעבדה מנוהלת במשותף על ידי המכללה וחברת ספיץ' מודולס (Speech Modules), כאשר 6 מבין 12 החוקרים הם מהמכללה וששת האחרים – מהחברה.
עוד הוא הוסיף, כי המערכת שמפותחת בימים אלה במכללת אפקה תכלול אלגוריתם ייחודי לייצור הפיתוזות מילים מסדרת פונמות נתונה, תוך הקטנה משמעותית של מספר המילים האפשריות. כן היא תיצור אלגוריתם ייחודי נוסף ליצור סדרת מילים מאוסף מילים נתון שהתקבל מהדרגה הקודמת. בנוסף, יושם בה דגש על כלים וגישות לעיבוד טקסטואלי תוך שילוב מידע לשוני. במסגרת זו מוקדש תקציב לפיתוח תשתית משמעותית בשפה האגלית. זאת לעומת הגישות הקיימות של זיהוי דיבור, המתאימות בעיקר לזיהוי דיבור בתקשורת אדם-מכונה ומנועי הכתבה, הדורשים מגבלות רבות מהדוברים כדי שהמחשב יוכל להבין אותם. הוא הוסיף, כי "תוצרי המחקר שלנו ישולבו במוצר להמרת הודעות קוליות מעולם הטלפוניה להודעות טקסט".
ד"ר נאוה שקד, יושבת ראש AVIOS ישראל, אמרה, כי הארגון שבראשותו היא עומדת רואה חשיבות בהגברת הקשר בין התעשייה והאקדמיה ובקירוב צעירים לתחומים הקשורים לדיבור ממוחשב. היא אמרה, כי לפיכך, הארגון מקיים את הכנס.











זה נשמע פיתוח מדהים. בתור כבדת שמיעה שקשה לה לשמוע בעיקר הרצאה במסגרת לימודי מחשבים, כי לא יכולה לראות את שפתי המרצה וכך נמנעת לה יכולת קריאת השפתיים, וקשה לי כך לעקוב אחר ההסברים על התוכנה, פיתוח כזה ממש יעזור לי.