הכול על העיבוד הקולי

עולם העיבוד הקולי מתפתח מאוד בשנים האחרונות, עם יציאתן של יכולות כמעט מדויקות לזיהוי ולפענוח אודיו ● עופר אליקים, מנכ"ל DSPG, מהחברות הבולטות בתחום, מסביר על ההתפתחויות בעולם זה וכיצד הוא ישפיע על עולם העבודה ההיברידית

הקול במרכז. אילוסטרציה: BigStock

אחד התחומים המתפתחים באחרונה בעולם הטכנולוגיה הוא העיבוד הקולי. רבים מאתנו מכירים אותו דרך ה-Speech to Text – העברת קול לטקסט וניתוחו. חברות רבות פיתחו פתרונות בעולם זה, כולל תאגידי ענק כמו גוגל ואמזון. אלא שהתחום הזה חולש לא רק על השיחות שאנחנו מנהלים או ההודעות הקוליות שאנחנו מקליטים, כי אם גם על עולמות כגון בתים חכמים, מוצרי אינטרנט של הדברים נוספים ואבטחה.

אחת החברות שעוסקות בעיבוד קולי היא DSPG הישראלית. החברה קיימת כבר יותר משלושה עשורים והיא נמצאת בשלב השלישי שלה: לאחר שהתחילה בעולם המשיבונים והתפתחה לעולם השבבים, עם כל יכולות הטלפוניה על שבב, בעיקר בטלפונים ביתיים, כיום היא עוסקת בכל מכשירי הטלפון ובמכשירים נוספים. בשבוע שעבר היא הכריזה על ציון דרך: ייצוא השבב ה-100 מיליון בטכנולוגיית ה-SmartVoice שלה.

עופר אליקים, מנכ"ל החברה, אמר כי "אנחנו נמצאים בכל טלפון שהוא ובכל מכשיר רלוונטי אחר, למשל מוצרי וידיאו קונפרנסינג, מחשבים, טאבלטים, בתים חכמים, משקפיים, אופניים ועוד מגוון עצום של מוצרים". אליקים מחלק את מגזרי הפעילות של DSPG ל-60-40: כ-60% מהפעילות היא במגזר הצרכני וכ-40% – בקרב ארגונים.

עופר אליקים, מנכ"ל DSPG. צילום: קרן בן ציון

עופר אליקים, מנכ"ל DSPG. צילום: קרן בן ציון

DSPG מנוהלת מישראל ומרבית העובדים שלה – כ-240 מתוך 360 – נמצאים כאן. היא גם הולידה כמה חברות ישראליות, בהן אודיוקודס. עם זאת, שיעור ההכנסות שלה מהשוק המקומי קטן מאוד, וכמעט כולן מגיעות מייצוא. סניפי החברה מתפרסים, לבד מישראל, על פני תשע מדינות: בריטניה, גרמניה, הודו, ארצות הברית, יפן, הונג קונג, סין, טייוואן ודרום קוריאה.

אליקים הוא בעל ניסיון עשיר בתחום הטלקום: הוא משמש כמנכ"ל החברה מאז 2009 ומונה לתפקיד שלוש שנים בלבד לאחר שהצטרף אליה. בתפקידיו הקודמים ב-DSPG הוא היה מנהל קשרי המשקיעים והפיתוח העסקי ומנהל המכירות באסיה. לפני שהגיע ל-DSPG עבד אליקים במשך מספר שנים בוול-סטריט, בתור אנליסט בתחומי הטלקום והטכנולוגיה, ובמספר חברות היי-טק בארץ, כגון רדוויז'ן וטנדו. ברזומה שלו גם עבודה במחלקת הייעוץ של ארנסט אנד יאנג.

"הקול – הממשק המועדף להפעלת כל מכשיר"

"בשנים האחרונות חלו הרבה מהפיכות בתחום העיבוד הקולי", ציין אליקים. "המהפיכה הגדולה ביותר היא שהקול נהיה הממשק המועדף לשליטה והפעלה של כל סוג של מכשיר בחיינו. זה הצריך הרבה מאוד התאמות שלא היו למוצרי אלקטרוניקה לתמוך ביכולות האלה, ליצור שפה שבאמצעותה ניתן יהיה לשלוט באותם מכשירים".

"העולם עובר מבעיקר נגיעה ולחיצות לעולם שבו השליטה היא הרבה יותר בחיווי קולי, עם אוצר מילים נרחב והרכבת משפטים לאו דווקא כמו שהמכונה הייתה רוצה, אלא בשפה חופשית, והיא מנתחת ומבצעת את הפקודות. כל אחת מהפלטפורמות הגדולות יצרה יכולות כאלה, בין אם אלה פלטפורמות ענן או עוזרים קוליים. כל אחת מהן גיבשה לעצמה יכולות תרגום של קול לטקסט, ניתוחו ולהבין מה הייתה הכוונה", הוסיף.

עיבוד קולי זה מזמן לא רק מובייל. צילום אילוסטרציה: BigStock

עיבוד קולי זה מזמן לא רק מובייל. צילום אילוסטרציה: BigStock

הוא ציין כי בשנתיים האחרונות, מכשירי הקצה הם אלה ששולטים בכיפה בתחום העיבוד הקולי, על חשבון הענן ועם הרבה יותר בינה מלאכותית, כדי לאפשר דיאלוג הרבה יותר טבעי. "זה יצר עוד שיטה בעולם האלגוריתמיקה: לצד השיטה הוותיקה, של אלגוריתמים דטרמיניסטיים, יש אלגוריתמיקה של רשתות עצביות, שמביאה את העיבוד הקולי והניתוח של הקול לאותה רמת אינטואיציה כמו שמבצעים במוח. כמו שאנחנו חושבים ומסיקים, גם המכונה חושבת ומסיקה, ומביאה זאת לידי ביטוי בניתוח שהיא מבצעת. היא יוצרת רשת עצבית עם תחנות וצמתים של ריאקציות כימיות, וממירה את מה שרואים ושומעים לממד הקולי. היא יכולה לנתח אם מה שאנחנו רואים הוא שולחן, כיסא או מסך, לדוגמה", אמר אליקים.

היכולות האלה הן ברות שימוש במגוון תחומים, כאשר אחד הבולטים שבהם הוא האבטחה, בין היתר של בתים חכמים. למשל, העיבוד הקולי מאפשר זיהוי של פריצה לבית לצורך גניבה של דברים יקרי ערך, באמצעות צלילים שמסגירים את השודדים. למשל, רעש ספציפי של חיטוט בבית – עד כדי כך.

איך אתם יודעים שמי שהמערכת מזהה את קולו הוא אמנם השודד ולא מישהו חף מפשע?
"אין 100% דיוק, אבל רמת הדיוק שאליה אנחנו שואפים היא 90%. המוצרים שלנו עוברים תקינה שמתמחה בזיהוי רעשים, ואנחנו בודקים את עצמנו כל הזמן מול גופי התקינה ומול המתחרים. מה שיפה במערכת הזאת הוא שהיא כל הזמן לומדות, כל הזמן משתכללות, ואם היא קולטת בצורה לא נכונה, אפשר לשנות אותה ולוודא שהקלט יהיה נכון, כך שלהבא, רוב הסיכויים שהיא תזהה אותו בצורה נכונה. אותו הדבר הפוך".

מה עם רעשי הרקע? הם מהווים אחד האתגרים הבולטים בעולם העיבוד הקולי.
"נכון, ובאחרונה ביצענו רכישה של חברה בתחום – סאונדצ'יפ. זה תחום מתפתח ואנחנו בין החברות הבולטות בו. לראייה, אנחנו נמצאים באוזניות החדשות של גוגל. המערכות כיום רגישות לרעשים, הן יודעות להבחין האם המשתמש נמצא בסביבה שהרעש בה הוא מונוטוני, משתנה, האם הוא בתנועה או לא, וכדומה. הן מבינות אילו רעשים צריך לבטל או לשכך כדי שהמשתמש ישמע מוזיקה טוב יותר או שהשיחה שהוא מנהל תעבור נקייה. בעתיד, נוכל להבין הרבה יותר טוב את מי שיהיה מולנו כשהאוזניות של שנינו יהיו בתוך האוזניים. כמו כן, ניתן יהיה לבצע בדיקה של איכות השמע שלנו את האחרים ואם המערכת תקלוט שהמשתמש לא שומע טוב, היא תחליף תדרים. היכולת להבין את השיחה ואת מה שקורה מסביב רק יתגבר".

כלומר, יהיה אפשר להשתמש במכשירים האלה ולשמוע יותר טוב גם במקומות שיש הרבה רעש, כמו מועדונים.
"לגמרי".

איך הקורונה השפיעה עליכם?
"הושפענו מהירידה במכירות מכשירי המובייל, אם כי מעט, כי בשנים האחרונות הרחבנו את תחומי הפעילות שלנו הרבה מעבר לעולם הזה. היה בתחילת המשבר את העיכוב בשרשרת האספקה מסין, אבל זה היה אירוע נקודתי. שרשרת האספקה תקינה יותר והשווקים חזרו לנורמליות.

DSPG עובדת כמעט רק במשרדים והייתה צריכה לעבור פתאום לעבודה בעיקר מהבית, מה שמאוד השפיע עלינו. יש שתי דיסציפלינות במו"פ – חומרה ותוכנה, ובהרבה מהמוצרים שאנחנו מפתחים יש קשר די הדוק בין שתיהן. מאוד קשה לפתח ולדבל חומרה מהבית, כי צריך לעשות סיעור מוחות ולחשוב ביחד. מהצד השני, לפתח תוכנה אפשר לעשות גם מרחוק וזה עובד בסדר. אבל, כשצריך לדלוור ללקוח – קשה מאוד להחליף את האינטראקציה הפיזית. כיום אנחנו עובדים בצורה היברידית: בקפסולות במשרד ומהבית.

יצוין שבניגוד לחברות אחרות, לא פיטרנו עובדים ולא הוצאנו לחל"ת במהלך תקופת הקורונה. נהפוך הוא: לא מכבר הכרזנו על הקמת סניף נוסף, בכרמיאל, ואנחנו מגייסים אליו עובדים בימים אלה".

אילו התפתחויות קורות או עומדות לקרות בתחום בעולם הארגוני?
"גם התחום שלנו עובר לעבודה היברידית. לא כל הדברים יקרו במשרד ובעתיד, ניתן יהיה לנהל הרבה יותר טוב וידיאו קונפרנס כשכל אחד במקום שלו, או חלק מהמשתתפים נמצאים במקום אחד והאחרים – במקום אחר, בין אם זה בבית או במשרד. כמו כן, אפשר יהיה להתרווח ולא להיות כל הזמן עם מבט דרוך על המסך, להתנהג בצורה יותר טבעית ולתת לטכנולוגיה לעבוד בשבילך.

עוד התפתחות היא שניתן יהיה לזהות את האנשים, יהיה כתוב מי זה מי, וניתן יהיה להוציא תמלול לסיכום השיחה. התחום הזה יעבור שדרוג משמעותי, ו-DSPG תוסיף להיות שותף רציני בתחום המחשוב ומוצרי התקשורת האחודה של חברות כמו סיסקו ואוויה".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים