הולך ומשתדרג: ChatGPT יכול כעת לראות, לשמוע ולדבר

OpenAI הודיעה באחרונה שהצ’טבוט מבוסס מודל השפה הגדול שלה קיבל עוד תכונות שיאפשרו לו לתקשר איתכם ביותר נוחות מעכשיו ● האם זה טוב או רע לעולם ומה יאמרו על החידוש החוששים מ-AI?

גנב תוכן או נוצל באופן מניפולטיבי על ידי הטיימס? ChatGPT.

"אנחנו מתחילים להשיק יכולות קול ותמונה חדשות ב-ChatGPT", בישרה אתמול (ב') חברת הבינה המלאכותית היוצרת OpenAI למשתמשיה הרבים. לפי החברה, התכונות שמתווספות כעת לצ'טבוט שלה "מציעות סוג חדש ואינטואיטיבי יותר של ממשק, בכך שהן מאפשרות לכם לנהל שיחה קולית או להראות ל-ChatGPT על מה אתם מדברים".

הוספת הקול והתמונה לאפשרויות הקלט של ChatGPT אמורה לספק דרכים נוספות להשתמש בבוט היוצר, שהפך מאז השקתו למאוד פופולרי בלאו הכי.

כדי להמחיש את החידוש הסבירה OpenAI שהמשתמש יכול למשל לצלם תמונה של נקודת ציון תוך כדי נסיעה ולקיים שיחה בלייב עם הכלי בנוגע לשאלה מה מעניין במקום שתועד. או לדוגמה החברה הציעה, "כשאתם בבית, צלמו תמונות של המקרר והמזווה שלכם, כדי להבין מה יש לארוחת ערב (ושאלו שאלות המשך למתכון שלב אחר שלב)".

בחברה מציעים למשתמשים פשוט לעבור במקום לכתוב, לדבר עם ChatGPT, ולבקש ממנו לדבר אליכם בחזרה במתכונת של שיחה. לצ'אטבוט יש חמישה קולות שונים אופציונליים, שמתוכם תוכלו לבחור את הקול המועדף עליכם.


יכולת הקול החדשה מופעלת על ידי מודל טקסט לדיבור חדש, המסוגל לייצר אודיו עם קול דמוי אדם מטקסט בלבד וממספר שניות של דיבור שסרק כדוגמה. ב-OpenAI מספרים כי שיתפו פעולה עם שחקני קול מקצועיים, כדי ליצור כל אחד מהסוגי הקולות. כמו כן כתבה החברה בפוסט שהעלתה לבלוג שלה אודות החידושים, שהיא משתמשת גם ב-Whisper, מערכת זיהוי הדיבור שלה בקוד פתוח, כדי לתמלל את המילים המדוברות של המשתמשים לטקסט.

בנוסף, כאמור, כעת יכולים המשתמשים להציג ל-ChatGPT תמונה אחת או יותר. למשל, מציעים ב-OpenAI, לבקש מהצ'טבוט לפתור את התהייה מדוע מכשיר חשמלי שלכם לא מתחיל לעבוד, על ידי צילום של כפתוריו ומחווניו, או להעלות לכלי גרף מורכב עם נתונים הקשורים לעבודה ולבקש ממנו לנתח אותם. כדי להתמקד בחלק מסוים של תמונה, הוסבר, ניתן להשתמש בכלי הציור באפליקציה של החברה בנייד.

לפי ההסברים, הבנת התמונה על ידי הכלי מופעלת באמצעות GPT-3.5 ו-GPT-4 ומודלים אלה מיישמים את כישורי החשיבה השפתית שלהם על מגוון רחב של תמונות, כגון תצלומים, צילומי מסך ומסמכים המכילים טקסט ותמונות כאחד.

האם הצ'טבוט ההולך ומשתדרג מפוקח ובטוח?

המטרה של OpenAI היא, לדבריה, לבנות כלי בינה מלאכותית חזקה, המכונה AGI (ר"ת Artificial general intelligence), שיהיה בטוח ומועיל. לפיכך בחברה הופכים עוד ועוד יכולות וכלים שפיתחו לזמינים בהדרגה, "מה שמאפשר לנו לבצע שיפורים ולצמצם סיכונים לאורך זמן ובמקביל להכין את כולם למערכות חזקות יותר בעתיד. אסטרטגיה זו הופכת חשובה עוד יותר עם מודלים מתקדמים הכוללים קול ואימג'ים", צוין בפוסט.

בחברה גם הבטיחו למודאגים בנוגע להפיכת כלי הבינה המלאכותית היוצרת המוביל לעוד יותר חכם אפילו, שקיפות לגבי מגבלות המודל. OpenAI הצהירה בפוסט כי המשתמשים כנראה ירצו להסתמך על יכולות ChatGPT לנושאים מיוחדים, למשל בתחומים כמו מחקר. "אנו שקופים לגבי מגבלות המודל ומונעים מקרי שימוש בסיכון גבוה ללא אימות מתאים", צוין בפוסט. "תוכלו לקרוא עוד על הגישה שלנו לבטיחות והעבודה שלנו עם Be My Eyes בכרטיס המערכת לקלט תמונה", הציעה החברה.

בכל אופן, אם לחזור לפרטים הטכניים של האירוע – לפי העדכון, לעת עתה מוטב לנהל את התקשורת עם הצ'טבוט ותכונותיו החדשות באנגלית. בחברה הודו שהוא "גרוע" עם שפות אחרות וגרוע במיוחד עם כמה שפות ספציפיות, שעברית אינה אחת מהן.

וכתמיד העדכון מתגלגל – האפשרות להעלאת קול ותמונות ל-ChatGPT תגיע ותוצע קודם כל למשתמשי Plus ו-Enterprise, והדבר יקרה במהלך השבועיים הקרובים. היכולות הללו ימשיכו ויגיעו גם לידי משתמשים "רגילים", כולל מפתחים, זמן קצר לאחר מכן.

אם התלהבתם, רצוי שתדעו גם כי כהתחלה פיצ'ר הקול יגיע ל-iOS ואנדרואיד ותכונת התמונות תהיה זמינה בכל הפלטפורמות.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים