הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם

שיחה עם AI שנשמעת כמו שיחה עם בן אדם, לא כמו שיחה עם מוקד שירות

יש תבנית שמי שהשתמש ב-ChatGPT Voice מכיר היטב: שואל שאלה, AI מתחיל לענות, מגיע לנקודה שצריך לחשב או לבדוק משהו, נעצר, ממשיך. שיחה לא טבעית. כמו לדבר עם מישהו שעונה "רגע, בודק" בכל שאלה קצת יותר מורכבת.

OpenAI שחררה השבוע שלושה מודלים חדשים שאמורים לשים סוף לבעיה הזאת.

מה בדיוק יצא?

שלושה מודלים, כל אחד עם תפקיד: GPT-Realtime-2 לשיחות עם יכולות מחשבה בזמן אמת, GPT-Realtime-Translate לתרגום דו-כיווני ב-70 שפות, ו-GPT-Realtime-Whisper לתמלול בסטרימינג.

ה-Realtime-2 הוא הסיפור המרכזי. לפי ההודעה הרשמית של OpenAI, המודל מביא יכולות חשיבה ברמת GPT-5 לתוך שיחה קולית בזמן אמת. הוא יכול להשתמש במספר כלים בו-זמנית ולדבר תוך כדי חשיבה, בלי לעצור.

המספרים: על מדד Big Bench Audio, ה-Realtime-2 הגיע ל-96.6% לעומת 81.4% של הדור הקודם. קפיצה של כ-15 נקודות. בתחום ה-AI זה הבדל משמעותי, לא שיפור קוסמטי.

The Rundown AI ציין שחברות כמו Zillow, Priceline וחברת הטלקום הגרמנית Deutsche Telekom כבר בונות מוצרים על גבי המודלים החדשים. Zillow לסוכן נדל"ן קולי, Priceline לניהול טיסות ומלונות, ודויטשה טלקום לשירות לקוחות.

מה זה אומר בפועל?

שיחות קוליות עם AI היו עד עכשיו מוגבלות. הייתה בחירה בין מהירות לחשיבה: מודל מהיר שלא ממש חושב, או מודל איטי שעוצר לחשוב. Realtime-2 מנסה לסגור את הפער הזה, ולאפשר שיחה שנשמעת טבעית גם כשהשאלה מסובכת.

מה שמשנה את הדינמיקה הוא האפשרות להשתמש בכלים תוך כדי שיחה. AI שיכול לבדוק מידע, לחשב, לשלוח הודעה, כל זה בלי לשבור את קצב השיחה. זה מה שהופך אותו מ"תשובה קולית" ל"סוכן קולי".

ה-טק קראנץ' הדגיש שהמוצרים האלה נגישים כרגע דרך ה-API, כלומר המפתחים הם הקהל הראשוני. השאלה היא מתי ומאיפה יגיעו לידי משתמשי הקצה.

אבל יש שאלה שמטרידה

יכולת תרגום בזמן אמת ב-70 שפות היא כנראה הדבר הכי מפחיד מבחינת שוק העבודה בתחום הזה. מתורגמנים אנושיים, מוקדי שירות בשפות שונות, מנהלי שיחות בינלאומיות. כל אלה מסתכלים על מוצר שמתרגם בלי השהייה, בלי בלבול, ב-70 שפות.

FutureTools ציין שה-Realtime-Translate, לפי מה שידוע, עובד דו-כיווני, כלומר לא רק מתרגם מה שאומרים לי אלא גם מה שאני אומר לצד השני.

זה שינוי שיגיע למוצרים גדולים בקרוב מאוד. לא בעוד שנה, בעוד כמה חודשים.

לאן זה הולך?

עולם ה-AI הקולי היה תמיד מאחור ביחס לטקסט. צ'אט-ג'יפיטי, קלוד, ג'מיני: כולם מרשימים בכתב. הקול היה ה"גרסה החמישית" של אותו מוצר, הגרסה שמוסיפים כפיצ'ר אבל לא כמוצר מרכזי.

Realtime-2 נשמע כמו ניסיון לשנות את זה. אם ה-AI יכול לחשוב בקול, לשלב כלים, ולתרגם בזמן אמת, הממשק הקולי מפסיק להיות נוח פחות מהטקסט ומתחיל להיות נוח יותר לחלק גדול מהאינטראקציות.

שאלה אחת נשארת: עד כמה הטבעיות בפועל תתאים להבטחה בנייר? כי ב-AI קולי, כמו בקומיקאים, העיתוי הוא הכל.