WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

WALL-E - מודל בינה מלאכותית של מיקרווספט לחיקוי שלח קול אנושי.צילום: מיקרוסופט

בסוף השבוע הכריזו חוקרי מיקרוסופט על מודל בינה מלאכותית חדש של טקסט לדיבור בשם VALL-E, שיכול לחקות באופן מדויק את קולו של אדם באמצעות דגימת אודיו של שלוש שניות. ברגע שהוא לומד קול ספציפי, VALL-E יכול לסנתז דיבור של אותו אדם אומר כל דבר – ולעשות זאת בצורה שתנסה לשמר את הטון הרגשי של הדובר.

יוצרי המודל מעריכים, שניתן להשתמש ב-VALL-E עבור יישומי טקסט לדיבור באיכות גבוהה, עריכת דיבור – שבה ניתן לערוך הקלטה של אדם ולשנות מתמלול טקסט (לגרום לו לומר משהו שהם לא אמרו במקור), ויצירת תוכן שמע בשילוב עם דגמי בינה מלאכותית אחרים כמו GPT-3.

מיקרוסופט מכנה את VALL-E "מודל עצבי לקידוד שפה", והוא מבוסס על טכנולוגיה בשם EnCodec, שעליה הכריזה מטא באוקטובר 2022. בניגוד לשיטות טקסט-לדיבור אחרות, שבדרך כלל מסנתזות דיבור על ידי מניפולציה של צורות גל, VALL-E יוצר קודי קידוד אודיו נפרדים מטקסט והנחיות אקוסטיות. המודל בעצם מנתח איך אדם נשמע, מפרק את המידע הזה לרכיבים נפרדים (הנקראים "אסימונים") הודות ל-EnCodec, ומשתמש בנתוני אימון כדי להתאים למה שהוא "יודע" לגבי האופן שבו הקול הזה היה נשמע אם היה משמיע ביטויים שונים ממה שנאמר בדגימת שלוש השניות.

מיקרוסופט אימנה את יכולות סינתזת הדיבור של VALL-E על ספריית אודיו בשם LibriLight, שנבנתה על ידי מטא. היא מכילה 60,000 שעות של דיבור בשפה האנגלית של יותר מ-7,000 דוברים, שרובם נשלפים מספרי אודיו ציבוריים של LibriVox. כדי ש-VALL-E יפיק תוצאה טובה, הקול בדגימה של שלוש השניות חייב להתאים לקול בנתוני האימון.באתר לדוגמה VALL-E, מיקרוסופט מספקת עשרות דוגמאות אודיו של מודל הבינה המלאכותית בפעולה ומציגה את התוצאות.

נוסף על שימור הגוון הקולי והטון הרגשי של הדובר, VALL-E יכול גם לחקות את "הסביבה האקוסטית" של האודיו. לדוגמה, אם הדגימה הגיעה משיחת טלפון, פלט האודיו ידמה את המאפיינים האקוסטיים והתדרים של שיחת טלפון בפלט המסונתז שלה. הדגימות של מיקרוסופט מדגימות, ש-VALL-E יכול גם ליצור וריאציות בטון הקול.

אולי בגלל היכולת של VALL-E לגרום להונאה או סתם לפעולות "שובבות, מיקרוסופט לא סיפקה את הקוד VALL-E כדי שאחרים יוכלו להתנסות בו. נראה כי החוקרים מודעים לנזק החברתי הפוטנציאלי שטכנולוגיה זו עלולה לגרום. החוקרים כותבים במסקנתם, כי "מכיוון ש-VALL-E יכול לסנתז דיבור ששומר על זהות הדובר, הוא עלול לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי. כדי להפחית סיכונים כאלה, אפשר לבנות מודל זיהוי שיודיע האם קליפ אודיו סונתז על ידי VALL-E. אנו גם ניישם את עקרונות הבינה המלאכותית של מיקרוסופט בפיתוח מודלים נוספים".

תגובות

(3)

כתיבת תגובה לבטל

אליה

לפני 3 שנים

היי

השיבו לתגובה
יוני

לפני 4 שנים

מה הקשר של זה לבינה מלאכותית? חיקוי של אות כלשהו, של מכונה, של חיה, זה תוכנה פרופר. לומדים אות, ומשחרין ברמה כזו או אחרת. היו סמפלרים שדגמו כלי נגינה, וחלק מהכלים ממש טוב. וגם קול אדם, וזה יותר קשה כי יש גם עיצורים, וכו. יותר מורכב. אבל, תוכנה זה תוכנה, ותלויה באלגוריתמים ומי שכתב. זה שמחקים קול אדם, לא עושה את זה לבינה מלאכותית. הייפ של מושג שיווקי.

השיבו לתגובה

בשנייה אחת של הקלטה סטנדרטית יש כ41000 תדרים, זה בעצם 41000 מספרים באורך של כ7 ספרות שמתארות כל חלק בהקלטה, זה דורש בינה מלאכותית

לפני 4 שנים

אין לי כוח להיכנס לפרטים אבל פשוט סמוך עליי זה דורש בינה מלאכותית

השיבו לתגובה

צק פוינט: ה-AI עולה כיתה – ומפעילה מתקפות סייבר מתוחכמות

בכירים מדברים על מהפכת ה-AI בעולם הפינטק

אפל מתכננת מעבד עם 1.5 טרה-בייט זיכרון RAM מובנה

אילו חברות היי-טק מצטיינות באחריות תאגידית?

"בנינו דאטה סנטר ומתחם בראייה של עשרות שנים קדימה"

מריבוי ספקיות ועד AI בצללים – אתגרי הבינה המלאכותית בארגוני הבריאות

"נכנסו שחקנים חדשים לארגון: צריך לזהותם ולנטר את פעילותם"

שני סטארט-אפים ביום אחד: Oak ו-Hemispheric נחשפו

הבינה המלאכותית יכולה להוציא אתכם לחופשה

הנחת היסוד שעליה נבנה הניהול המודרני מתחילה להתערער

חצי גמר המונדיאל: המציאות ניצחה את ה-AI

המתח בשיאו במונדיאל – ואפילו ה-AI לא יכולה לחזות מי יעלו לגמר

מעבדת ה-AI המהירה בעולם: מה ארגונים יכולים ללמוד מפורמולה 1?

נשים ומחשבים: אופק כהן, סייקוד

זה השילוב המנצח האמיתי במונדיאל

כך סוכני AI מייצרים לולאת אבטחה שלומדת בעצמה

WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

תגובות

כתיבת תגובה לבטל

אירועים קרובים

ידיעות מובילות

כך מסייע ה-IT לניהול אירועי המכביה ה-22

פריצת דרך בממשלה: המנמ"ר שודרג לסמנכ"ל – וידווח ישירות למנכ"ל

קבוצת מלם תים מקימה את אגף פתרונות המומחה Xpert Solutions

נשים ומחשבים: מיכל צוקרל, נס

"נהפוך את ישראל לאומת כלל שכבות ה-AI"

אתמול במונדיאל: כשגוגל סיימה ב-0:0 עם חברה קטנה מדימונה

צק פוינט: ה-AI עולה כיתה – ומפעילה מתקפות סייבר מתוחכמות

בכירים מדברים על מהפכת ה-AI בעולם הפינטק

אפל מתכננת מעבד עם 1.5 טרה-בייט זיכרון RAM מובנה

אילו חברות היי-טק מצטיינות באחריות תאגידית?

"בנינו דאטה סנטר ומתחם בראייה של עשרות שנים קדימה"

מריבוי ספקיות ועד AI בצללים – אתגרי הבינה המלאכותית בארגוני הבריאות

"נכנסו שחקנים חדשים לארגון: צריך לזהותם ולנטר את פעילותם"

שני סטארט-אפים ביום אחד: Oak ו-Hemispheric נחשפו

הבינה המלאכותית יכולה להוציא אתכם לחופשה

הנחת היסוד שעליה נבנה הניהול המודרני מתחילה להתערער

חצי גמר המונדיאל: המציאות ניצחה את ה-AI

המתח בשיאו במונדיאל – ואפילו ה-AI לא יכולה לחזות מי יעלו לגמר

מעבדת ה-AI המהירה בעולם: מה ארגונים יכולים ללמוד מפורמולה 1?

נשים ומחשבים: אופק כהן, סייקוד

זה השילוב המנצח האמיתי במונדיאל

כך סוכני AI מייצרים לולאת אבטחה שלומדת בעצמה

WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

כך מסייע ה-IT לניהול אירועי המכביה ה-22

פריצת דרך בממשלה: המנמ"ר שודרג לסמנכ"ל – וידווח ישירות למנכ"ל

קבוצת מלם תים מקימה את אגף פתרונות המומחה Xpert Solutions

נשים ומחשבים: מיכל צוקרל, נס

"נהפוך את ישראל לאומת כלל שכבות ה-AI"

אתמול במונדיאל: כשגוגל סיימה ב-0:0 עם חברה קטנה מדימונה