החיפוש נעשה יותר נוח

אם ניסיתם לחפש שם מסובך בגוגל או בכל מנוע חיפוש אחר, אתם ודאי יודעים שמדובר במשימה לא קלה ● חוקרים מאוניברסיטת בן גוריון מבקשים לעשות אותה לידידותית יותר, באמצעות אלגוריתמים שהם פיתחו, מבוססי בינה מלאכותית ולמידה עמוקה

חפש אותי... אילוסטרציה: BigStock

השיר של חנוך לוין, בביצועה המדהים של חוה אלברשטיין, קובע שבלונדון, הייאוש נעשה יותר נוח. אם להקביל לעולם האינטרנט, החיפוש בגוגל, בבינג או בכל מנוע אחר יכול להיות לעתים מייאש, ותגלית חדשה של חוקרים מאוניברסיטת בן גוריון יכולה לעשות אותו יותר נוח.

בעוד כמה משפטים אגיע לתגלית, אבל קודם לגבי החיפוש: מי מאתנו לא ניסה לפחות פעם אחת בחייו לחפש ברשת שם של בן אדם או מונח, שהוא מסובך או שלא יודעים בדיוק איך לבטא אותו, ובמקרים מסוימים הוא ניתן לביטוי ולכתיבה בצורות שונות. למשל, השם רמי פוזיס: לא תמיד ברור האם זה Pozis, Foshis, PHozis או כל צירוף אחר. ומה עם שמות נפוצים יותר, כגון השם ויקטור, שיש שכותבים אותו עם C ויש שעם K? או סופיה – שם שאפשר לכתוב גם ב-F וגם ב-PH? שלא לדבר על כך שיש מילים שנשמעות קצת אחרת בשפות שונות.

ד"ר מיכאל פייר מהמחלקה למערכות מידע ותוכנה באוניברסיטת בן גוריון. צילום: דני מכליס

ד"ר מיכאל פייר מהמחלקה למערכות מידע ותוכנה באוניברסיטת בן גוריון. צילום: דני מכליס

באוניברסיטת בן גוריון חשבו ופיתחו, ומצאו פתרון לבעיה – לפחות כך הם אומרים. אגב, לא בחרתי את השם רמי פוזיס במקרה – ד"ר פוזיס הוא אחד החוקרים השותפים לפיתוח, יחד עם ד"ר מיכאל פייר והדוקטורנט אביעד אלישר. כולם מגיעים מהחטיבה למערכות מידע ותוכנה שבאוניברסיטה הדרומית. השלושה פיתחו מנוע מבוסס בינה מלאכותית ולמידה עמוקה, שמאפשר להעביר את מילות החיפוש המבוקשות מקול לטקסט. שהרי לדעת האם צריך לומר פוזיס עם חולם או בלעדיו כדי למצוא את התוצאה הנכונה זה פשוט יותר מאשר להבין איך כותבים את השם בצורה הנכונה.

כמו הרבה פיתוחים, וסטארט-אפים, הפיתוח של החוקרים נולד מצורך שלהם בעצמם. "הרעיון המקורי התחיל מזה שהיינו צריכים לתרגם שם משפחה מסוים מעברית לאנגלית, במסגרת העיסוק של המעבדה שלנו בתחום עצי המשפחה (גנאולוגיה – י"ה) – ולא מצאנו", אמר ד"ר פייר. "ניסיתי לפתור את זה באמצעות המתמטיקה, על ידי שימוש במחרוזות שקרובות לשם המקורי, בהתבסס על פונקציות מתמטיות. ראיתי שחזרו לי הרבה שמות משפחה בסגנונות שונים, ושיש ביניהם קשר".

אביעד אלישר, דוקטורנט בחטיבה למערכות מידע ותוכנה באוניברסיטת בן גוריון. צילום: גילה אלישר

אביעד אלישר, דוקטורנט בחטיבה למערכות מידע ותוכנה באוניברסיטת בן גוריון. צילום: גילה אלישר

מכאן הם פיתחו את הפלטפורמה, שמסייעת בין היתר לאיתור נכדים שקרויים על שם סבא שלהם. "יש לא מעט משפחות שבהן לא מעט נכדים קרויים על שם הסבא או הסבתא, ולעתים בהטיות שונות. לדוגמה, לסבא קראו מיכאל ולנכדים – מיכאל או מיקי, או מקרים שבהם לסבא קראו משה ולנכדים – משה או מושיקו", ציין פייר. אגב, הפלטפורמה תומכת בכל השפות בעולם, אבל מתמקדת ב-11 מהן, ובעיקר, איך לא, באנגלית.

באילו אלגוריתמים השתמשתם?
אלישר: "השתמשנו בשני אלגוריתמים – הראשון, GRAFT, מנצל מידע גנאולוגי על שושלות יוחסין לאורך ההיסטוריה לצד שיתוף אלגוריתמים מעולם הרשתות והשני, SpokenName2Vec, יוצר קבצי אודיו של שמות.

האלגוריתם הראשון מחפש תבניות לאורך ההיסטוריה, על מנת למצוא דמיון פונטי או איות דומה ביניהם. השתמשנו לצורך כך בדטה בייס של 17 מיליון בני אדם – רובם אמריקנים, אך גם בריטים ואוסטרלים. האלגוריתם מחפש תבניות לאורך ההיסטוריה ואנחנו יכולים לזהות באמצעותו תופעות, כמו קריאת הנכדים על שם הסבא או הסבתא, בוורסיות שונות – ולקשר ביניהן. זה מקל גם על מציאת קרובי משפחה.

ג'יין, ג'ון, ג'ואנה ואפילו ג'וב - אלגוריתם שיודע לחבר בין כולם. מקור: אוניברסיטת בן גוריון

ג'יין, ג'ון, ג'ואנה ואפילו ג'וב – אלגוריתם שיודע לחבר בין כולם. מקור: אוניברסיטת בן גוריון

הבסיס של האלגוריתם השני הוא אופן ביטוי השם, עם יצירה של קובץ שמע באמצעות אלגוריתם של למידה עמוקה וקבלת ייצוג ייחודי לכל אחד מהשמות".

הכוונה היא להפיכת שמות כתובים לקבצי קול במבטאים שונים – ישראלי, אנגלי (בריטי, אמריקני או אחר), צרפתי וכדומה. "מה שיפה בטכניקות האלה הוא שהווקטורים דומים, כמו סדרה של מספרים", אמר פייר.

כך פועל האלגוריתם השני שהחוקרים פיתחו. מקור: אוניברסיטת בן גוריון

כך פועל האלגוריתם השני שהחוקרים פיתחו. מקור: אוניברסיטת בן גוריון

האם אתם מתכננים להפוך את הפיתוח שלכם למסחרי?
פייר: "אנחנו עדיין לא יודעים, זה תלוי בהתעניינות – וכבר יש כמה חברות שמתעניינות בו. בהקשר של הפיתוח הזה, המרחק בין האקדמי למסחרי עדיין גדול. כרגע אנחנו מתמקדים בשיפור הפתרון ובהפיכתו לשימושי יותר".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר.

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים