הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם
הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם

הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם

OpenAI שחררה שלושה מודלי קול חדשים שמאפשרים לסוכני AI לחשוב תוך כדי דיבור ולתרגם 70 שפות בזמן אמת. זה לא שדרוג קוסמטי.

תוכן עניינים

שיחה עם AI שנשמעת כמו שיחה עם בן אדם, לא כמו שיחה עם מוקד שירות

יש תבנית שמי שהשתמש ב-ChatGPT Voice מכיר היטב: שואל שאלה, AI מתחיל לענות, מגיע לנקודה שצריך לחשב או לבדוק משהו, נעצר, ממשיך. שיחה לא טבעית. כמו לדבר עם מישהו שעונה "רגע, בודק" בכל שאלה קצת יותר מורכבת.

OpenAI שחררה השבוע שלושה מודלים חדשים שאמורים לשים סוף לבעיה הזאת.

מה בדיוק יצא?

שלושה מודלים, כל אחד עם תפקיד: GPT-Realtime-2 לשיחות עם יכולות מחשבה בזמן אמת, GPT-Realtime-Translate לתרגום דו-כיווני ב-70 שפות, ו-GPT-Realtime-Whisper לתמלול בסטרימינג.

ה-Realtime-2 הוא הסיפור המרכזי. לפי ההודעה הרשמית של OpenAI, המודל מביא יכולות חשיבה ברמת GPT-5 לתוך שיחה קולית בזמן אמת. הוא יכול להשתמש במספר כלים בו-זמנית ולדבר תוך כדי חשיבה, בלי לעצור.

ניוזלטר Ai של קהילת הבינה המלאכותית
הישארו בחזית הידע עם ניוזלטר Ai

המספרים: על מדד Big Bench Audio, ה-Realtime-2 הגיע ל-96.6% לעומת 81.4% של הדור הקודם. קפיצה של כ-15 נקודות. בתחום ה-AI זה הבדל משמעותי, לא שיפור קוסמטי.

The Rundown AI ציין שחברות כמו Zillow, Priceline וחברת הטלקום הגרמנית Deutsche Telekom כבר בונות מוצרים על גבי המודלים החדשים. Zillow לסוכן נדל"ן קולי, Priceline לניהול טיסות ומלונות, ודויטשה טלקום לשירות לקוחות.

מה זה אומר בפועל?

שיחות קוליות עם AI היו עד עכשיו מוגבלות. הייתה בחירה בין מהירות לחשיבה: מודל מהיר שלא ממש חושב, או מודל איטי שעוצר לחשוב. Realtime-2 מנסה לסגור את הפער הזה, ולאפשר שיחה שנשמעת טבעית גם כשהשאלה מסובכת.

מה שמשנה את הדינמיקה הוא האפשרות להשתמש בכלים תוך כדי שיחה. AI שיכול לבדוק מידע, לחשב, לשלוח הודעה, כל זה בלי לשבור את קצב השיחה. זה מה שהופך אותו מ"תשובה קולית" ל"סוכן קולי".

ה-טק קראנץ' הדגיש שהמוצרים האלה נגישים כרגע דרך ה-API, כלומר המפתחים הם הקהל הראשוני. השאלה היא מתי ומאיפה יגיעו לידי משתמשי הקצה.

אבל יש שאלה שמטרידה

יכולת תרגום בזמן אמת ב-70 שפות היא כנראה הדבר הכי מפחיד מבחינת שוק העבודה בתחום הזה. מתורגמנים אנושיים, מוקדי שירות בשפות שונות, מנהלי שיחות בינלאומיות. כל אלה מסתכלים על מוצר שמתרגם בלי השהייה, בלי בלבול, ב-70 שפות.

FutureTools ציין שה-Realtime-Translate, לפי מה שידוע, עובד דו-כיווני, כלומר לא רק מתרגם מה שאומרים לי אלא גם מה שאני אומר לצד השני.

זה שינוי שיגיע למוצרים גדולים בקרוב מאוד. לא בעוד שנה, בעוד כמה חודשים.

לאן זה הולך?

עולם ה-AI הקולי היה תמיד מאחור ביחס לטקסט. צ'אט-ג'יפיטי, קלוד, ג'מיני: כולם מרשימים בכתב. הקול היה ה"גרסה החמישית" של אותו מוצר, הגרסה שמוסיפים כפיצ'ר אבל לא כמוצר מרכזי.

Realtime-2 נשמע כמו ניסיון לשנות את זה. אם ה-AI יכול לחשוב בקול, לשלב כלים, ולתרגם בזמן אמת, הממשק הקולי מפסיק להיות נוח פחות מהטקסט ומתחיל להיות נוח יותר לחלק גדול מהאינטראקציות.

שאלה אחת נשארת: עד כמה הטבעיות בפועל תתאים להבטחה בנייר? כי ב-AI קולי, כמו בקומיקאים, העיתוי הוא הכל.

חדשות בינה מלאכותית

מאסק קרא לאנתרופיק "מיזנתרופיק". שלושה חודשים אחר כך הוא השכיר להם את הסופרקומפיוטר שלו.
לפני 3 שעות

מאסק קרא לאנתרופיק "מיזנתרופיק". שלושה חודשים אחר כך הוא השכיר להם את הסופרקומפיוטר שלו.

חדשות Ai
גוגל רוצה להיות הרופא, המאמן והמאמן השינה שלך. זה יעלה 10 דולר בחודש
לפני 3 ימים

גוגל רוצה להיות הרופא, המאמן והמאמן השינה שלך. זה יעלה 10 דולר בחודש

חדשות Ai

אודות המחבר/ת ארז רובינשטיין

ארז רובינשטיין כיהן כמנהל הקריאייטיב בקמפיין הבחירות של בנט, מרצה מבוקש בתחום ה-Gen Ai ומפעיל עמוד טיקטוק מצליח. ממייסדי A.I SAMURAI – קהילת בינה מלאכותית.

כתבות חדשות

הרופא ניחש נכון ב-50%. ה-AI של OpenAI ב-67%. 76 חולי חדר מיון לא שיקרו.
לפני 3 ימים
חדשות Ai

הרופא צדק ב-50% מהמקרים. ה-AI של OpenAI ב-67%.

לפני 3 ימים
חדשות Ai

הם בנו AI שגונב עבודות. עכשיו הם גנבו גם את המם שמתאר בדיוק את זה.

ברט טיילור גייס מיליארד דולר כדי להחליף את שירות הלקוחות שלך
לפני 3 ימים
חדשות Ai

ברט טיילור גייס מיליארד דולר כדי להחליף את שירות הלקוחות שלך