אנבידיה השיקה מערך נתונים פתוח לאימון מודלי AI רב-לשוניים
המערך החדש, ששמו Granary, כולל מעל מיליון שעות אודיו ותומך ב-25 שפות נוספות ● אנבידיה מקווה שבאמצעותו יוכלו מפתחים ליצור טכנולוגיות דיבור ותרגום מדויקות ומהירות יותר, גם בשפות עם פחות נתונים
אנבידיה (NVIDIA) הודיעה בסוף השבוע על השקת מערך נתונים פתוח חדש, שמטרתו לסייע באימון מודלים עבור AI רב-לשונית. מדובר במערך ששמו Granary, שבו כבר השתמשה החברה לצורך תמלול ותרגום מדויק של קבצי אודיו, אלא שהפעם, כאמור, הוא תומך בשפות רבות נוספות.
המערך מכיל למעלה ממיליון שעות של הקלטות אודיו, והוספת התמיכה בלשונות נוספות נועדה לבנות מודלים רב-לשוניים שמציעים טכנולוגיית דיבור מדויקת, אך גם מהירה במיוחד. מעבר ליצירה של כלים חדשים, המערך יאפשר למפתחים להרחיב שפות נוספות בכלים קיימים – כגון צ'טבוטים, סוכני AI מבוססי קול לשירות לקוחות, שירותי תרגום כמעט בזמן אמת ועוד.
🎉Just in: our NVIDIA Canary-1b-v2 model now tops the @HuggingFace ASR leaderboard 🏆 of open models for multilingual speech recognition accuracy.
🦜 NVIDIA Canary-1b-v2, is a billion-parameter model trained on Granary for high-quality transcription… pic.twitter.com/sFbVcTFLGR
— NVIDIA AI Developer (@NVIDIAAIDev) August 15, 2025
הפיתוח הנוכחי מוסיף תמיכה ב-25 שפות אירופיות נוספות. לפי אנבידיה, הדבר הופך את הטכנולוגיה לזמינה גם במקרים שבהם יש מוגבלות בכמות הנתונים הזמינים לאימון – לדוגמה בשפות קרואטית, מלטזית ואסטונית. בעולם כולו, יש למעלה מ-7,000 שפות מדוברות.
כדי לפתח את Granary, צוות הדיבור באמצעות בינה מלאכותית של אנבידיה שיתף פעולה עם חוקרים מאוניברסיטת קרנגי מלון (Carnegie Mellon University) ומקרן ברונו קסלר (Bruno Kessler Foundation), תוך שימוש במעבד נתוני הדיבור NeMo, שהפך את הנתונים למובנים ואיכותיים. כעת מפתחים יכולים לפתח כליי תמלול ותרגום לכל 24 השפות הרשמיות של האיחוד האירופי, כמו גם לרוסית ואוקראינית.











תגובות
(0)