חדש מגוגל: תרגום קולי סימולטני זריז הישר לאוזן
המודל החדש של ענקית הטק - Gemini 3.5 Live Translate שמו - מציע תרגום AI קולי סימולטני, טבעי ורציף, בלמעלה מ-70 שפות - לקהל הרחב וגם בהתאמה למפתחים
גוגל (Google) חשפה אתמול (ג') את מודל הבינה המלאכותית החדש שלה, המבוסס על הארכיטקטורה של Gemini 3 Pro, אשר נועד לספק תרגום קולי רציף בזמן אמת. הטכנולוגיה החדישה יודעת לזהות אוטומטית למעלה מ-70 שפות ולהפיק פלט דיבור שנשמע טבעי, תוך שמירה מדויקת על קצב הדיבור, גובה הצליל ואינטונציית הדובר המקורי.
גוגל הסבירה כי שלא כמו במערכות תרגום קודמות, שהמתינו לסיום המשפט כדי להתחיל בתרגום, הפיתוח הנוכחי מעבד את צלילי השמע ברצף ומספק תוצאה שוטפת ללא השהיות מביכות. בהודעה מטעם החברה צוין כי: "לפני עשרים שנה, התרגום בגוגל החל כאחד מניסויי למידת המכונה החלוציים שלנו… היום, אנו עושים את הצעד הבא שלנו עם שחרורו של Gemini 3.5 Live Translate, מודל האודיו החדש שלנו לתרגום חי מדיבור לדיבור".
עבור הקהל הרחב, החידוש הוטמע באפליקציית גוגל תרגום (Google Translate) במכשירי אנדרואיד ו-iOS ברחבי העולם. משתמשים יכולים כעת לחבר אוזניות ולזכות בתרגום סימולטני שמשקף את נימת הדובר המקורית. בנוסף, גוגל עדכנה כי משתמשי אנדרואיד נהנים מ"מצב האזנה" חדש וייחודי, המאפשר להם להצמיד את הטלפון לאוזן, ממש כמו בשיחת טלפון רגילה, ולשמוע את התרגום ישירות מהאפרכסת באופן פרטי לחלוטין וללא צורך באביזרים נלווים.
Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation.
It supports over 70 languages and starts translating as soon as you start talking, streaming translations while listening to what you say next. No awkward pauses or choppy… pic.twitter.com/GecThLW2gg
— Google AI (@GoogleAI) June 9, 2026
כלי התרגום: גם למפתחים ולצרכים מסחריים
במקביל, גוגל מספקת גישה מוקדמת פומבית למפתחים, באמצעות הפלטפורמות Google AI Studio ו-Gemini Live API. בניגוד לסוכני בינה מלאכותית, שמנהלים שיחות בתורות ומקבלים קלט ממגוון סוגים, הכלי החדש פועל כמתורגמן רציף, המקבל קלט שמע בלבד ומפיק פלט קולי במהירות, וזאת, כדי לעמוד בדרישות ההשהיה המחמירות ביותר. מפתחים יכולים לרתום את היכולות הללו לפיתוח יישומי דיבוב חי ופרשנות סימולטנית להרצאות ולשיחות מרובות שפות.
ג'סי הול, מפתח בחברת לייבקיט (LiveKit), סיפר על ההתנסות שלו וציין כי "המודל הופך שימוש קולי רב-לשוני לכזה שנעשה ללא מאמץ. בניתי הדגמה… שבה כולם מדברים בשפתם ומבינים זה את זה בשידור חי".
התלהבות דומה נשמעה גם מנאש רמדיאל, מנהל בחברת ויז'ן אייג'נטס (Vision Agents), שצוטט בפוסט ההכרזה הרשמי בבלוג של גוגל (The Keyword) באומרו כי "הצוות שלנו נדהם מהמהירות, הדיוק והחיוניות של המודל".
מייסון אדמס, נציג מפתחים בחברת אגורה (Agora), הוסיף מחמאות משלו כשאמר ש-"לדעתנו הכלי סיפק תוצאות חדישות, עם השהיה נמוכה ודיוק גבוה שהציבו רף חדש לתרגום בזמן אמת".
We built a live multilingual, multi-person video call with Gemini 3.5 Live Translate on LiveKit. Everyone picks their language, speaks naturally, and hears each other in real time in their language of choice.
Watch the demo and check out the open source repo:… https://t.co/Cg4HonUdve pic.twitter.com/MxdaINEfJc
— LiveKit (@livekit) June 9, 2026
המודל משרת גם צרכים מסחריים רחבים של חברות ענק. כך למשל, אפליקציית הנסיעות Grab החלה לבחון את השילוב של המערכת בשירות שלה, כדי להקל על התקשורת בשיחות קוליות בין נהגים לנוסעים ממדינות שונות. פיליפ קנדל, סמנכ"ל המוצר בגראב, שיתף כי "בזמן בדיקת המודל, הערכנו את יכולתו לזהות אוטומטית שפות מרובות ולתרגם דיבור במדויק עם השהיה נמוכה".
גם בתעשיית הבידור ניכרת ציפייה גדולה, ובלה באק, סמנכ"לית בינה מלאכותית בתאגיד CJ ENM, ציינה כי: "בדיקות מוקדמות מראות איכות מבטיחה לחוויה אותנטית יותר עבור צופים גלובליים וקוריאנים".
באשר למגזר העסקי, לפי הדיווחים השונים, יש הסבורים כי הטכנולוגיה החדשה עתידה לחולל מהפכה בפלטפורמת שיחות הווידיאו Google Meet. את העדויות על הביצועים נתחיל לקבל בקרוב שכן החל מהחודש תושק גרסת התנסות פרטית ללקוחות עסקיים נבחרים של Google Workspace, ובהמשך השנה תורחב הפריסה לקהל רחב יותר. השדרוג יאפשר לבצע תרגום סימולטני של למעלה מ-2,000 שילובי שפות שונים באותה פגישה וירטואלית, מה שמהווה קפיצת מדרגה עצומה לעומת ההגבלה הקודמת שאפשרה תמיכה בחמש שפות בלבד ועבדה רק בתרגומים מול השפה האנגלית.
Say hello, hola, 你好 to Gemini 3.5 Live Translate: our latest audio model built for fast, cross-language communication. 🌐 pic.twitter.com/SEfHOSk59k
— Google DeepMind (@GoogleDeepMind) June 9, 2026
סייג לתרגום – אבולוציה
למרות היתרונות המרשימים, בחברת דיפ-מיינד (DeepMind) מבית גוגל, שפיתחה את המודל בשיתוף ענקית הטק, ציינו כי עדיין קיימות מספר מגבלות טכניות בשלב זה – מנגנון זיהוי השפה עלול להתקשות בהתמודדות עם מבטאים כבדים במיוחד או עם מעברים מהירים מדי בין שפות שונות, וייתכנו לעיתים תנודות בקולות המופקים – כגון שינוי פתאומי של מגדר הקול או הישארות עם קול של אדם אחד במהלך שיחה ערה מרובת משתתפים.
בנוסף, כאמצעי בטיחות נוקשה וכדי למנוע הפצת מידע כוזב או התחזויות, כל תוכן האודיו המיוצר על ידי המודל מסומן אוטומטית בחותמת המים הבלתי מורגשת SynthID.










תגובות
(0)