אתם מדברים. הוא שותק. אתם מסיימים. הוא מתחיל. כך זה היה תמיד.
תחשבו רגע איך אתם מדברים עם צ'אט-ג'יפיטי בטלפון. אתם פותחים פה, מוציאים משפט, מחכים שהוא יקלוט שסיימתם, ורק אז הוא מתחיל לענות. אם תפסיקו אותו באמצע, הוא ייעלב, ישתוק לרגע, ואז ינסה להבין מה רציתם. כל שיחה היא בעצם החלפת הודעות מילוליות. כל אחד מחכה לתורו.
זה לא איך שאנשים מדברים אחד עם השני. בני אדם נכנסים זה לדברי זה. מהמהמים תוך כדי הקשבה. מסכימים בלי לומר מילה. צוחקים על משפט של מישהו אחר תוך כדי שאנחנו עצמנו מנסחים תשובה. השיחה האנושית היא רב-קולית, בו-זמנית, מבולגנת.
ביום שני האחרון, מירה מוראטי (סמנכ"לית הטכנולוגיה לשעבר של OpenAI שעזבה לפני שנה והקימה את Thinking Machines Lab) פרסמה משהו שמנסה לשבור את החומה הזאת. לפי דיווח של טק קראנץ', החברה הציגה הצצה מחקרית למודל חדש בשם TML-Interaction-Small. זמן התגובה שלו: 0.40 שניות. מהירות שיחה אנושית טבעית.
הסוד הוא לא קצב. הסוד הוא בו-זמניות.
המונח הטכני שמוראטי משתמשת בו הוא "full duplex", תקשורת דו-כיוונית מלאה. אבל הרעיון פשוט. במקום שהמודל יחכה שתסיימו לדבר ואז יחשוב, ואז ידבר, הוא מקלט, חושב ומגיב באותו רגע.
בפוסט הטכני שפרסמה Thinking Machines ביום שני, החברה מסבירה את העיקרון. המודלים של היום, אומרים שם, עובדים בסבבים. בני אדם לא. אנחנו תופסים את העולם ברצף, מגיבים תוך כדי, מפסיקים את עצמנו, מתקנים, מאמתים. המודל החדש בנוי לעבוד באותה דרך: הוא מחלק את הזמן ל"מיקרו-תורות" של 200 מילישניות. בכל אחד מהם הוא קולט קלט חדש ומייצר פלט חדש. שני זרמים בו-זמנית, לא לסירוגין.
זה אומר שהוא יכול להפסיק אתכם באמצע משפט אם אתם אומרים שטות. הוא יכול להמהם בזמן שאתם מסבירים, כדי שתדעו שהוא איתכם. הוא יכול לתרגם לכם בזמן אמת לשפה אחרת, כי הוא מדבר ושומע באותו הזמן. ואם תגידו "תפסיק, חזור על המשפט האחרון" בזמן שהוא מסביר משהו, הוא לא ייתקע.
למה אף אחד לא עשה את זה עד עכשיו?
כי כולם פתרו את הבעיה הזאת באמצעות "רתמה". מערכת חיצונית שתופרת ביחד מודל שמייצר טקסט, מודל זיהוי דיבור, מודל שמזהה מתי המשתמש סיים לדבר, ומודל המרת טקסט לקול. מודל זיהוי הקול תופס את המילים שלכם, ה-VAD (זיהוי פעילות קולית) מנחש מתי סיימתם, ה-LLM כותב תשובה, וה-TTS מקריא אותה.
זה עובד. גם OpenAI וגם גוגל בנו ככה. אבל זה לעולם לא יהיה אמיתי. כי מי שמנחש מתי סיימתם לדבר הוא לא המודל הראשי. זה רכיב פשוט וטיפש שעומד בכניסה, מנסה לפענח אם אתם נושמים או חושבים. הרבה פעמים הוא יחתוך אתכם באמצע, או יחכה יותר מדי.
מוראטי טוענת שהפתרון הוא לא רכיבים חכמים יותר. הפתרון הוא לבנות מודל אחד שיש לו את כל היכולות הללו מובנות בתוכו. שיודע, מתוך עצמו, מתי המשתמש סיים, מתי הוא היסס, מתי כדאי לקפוץ פנימה. בלי תפרים.
איפה הקריקטורה הזאת עומדת על קרקע המציאות?
מי שהקשיב לשיחות עם OpenAI Realtime בחודשים האחרונים יודע שלפעמים זה נראה כאילו הקול של ה-AI ברח קדימה. הוא חותך אתכם. הוא ממהר. הוא מהמהם כשלא צריך. וזה מעצבן.
הסיבה היא שהמודלים האלו מנסים לחקות אנושיות בלי באמת להבין מתי לדבר ומתי לשתוק. הם אומנו על שיחות נטולות הקשר אמיתי. כאן מוראטי מצליחה, לפחות בסרטוני הדגמה, להראות מודל שמרגיש דרמטית אחר. שם, בפוסט המקורי של Thinking Machines, יש סרטון של אדם מבקש מהמודל לתרגם לו ספרדית לאנגלית. המודל מדבר ושומע באותו זמן. שני זרמי קול בו-זמנית. כמו מתרגם סימולטני אנושי.
יש גם הדגמה של אדם שכותב קוד והמודל מציין לו, מבלי שביקשו ממנו, שיש לו באג בשורה 12. הוא לא היה צריך שיפנו אליו עם פרומפט. הוא ראה את המסך, הבחין בטעות, ופתח את הפה. אם זה עובד באמת ככה ולא רק בסרטון, זאת חוויה אחרת לחלוטין.
מה הופך את זה למעניין בעצם?
האמת היא שזה לא רק עוד מודל. זאת אמירה רעיונית. רוב מעבדות ה-AI היום משחקות במשחק של "כמה המודל יכול לעשות לבד" אחרי שאנחנו עוזבים אותו עם משימה. סוכנים אוטונומיים. מערכות שמשרשרות פעולות במשך שעות. בני אדם נדחקים החוצה מהלולאה.
מוראטי טוענת שזה כיוון שגוי. שבעבודה אמיתית, אנשים לא יודעים לפרט הכל מראש. צריך לעבוד ביחד, לחזור אחורה, לתקן, להבהיר. הממשק חייב לאפשר את זה.
זאת בעצם פילוסופיה הפוכה מזו של OpenAI. OpenAI בונה את GPT-5.5 כדי לבצע שעות של עבודה ברצף, בלי שתעירו אותו. Thinking Machines בונה מודל שלא יעזוב אתכם לרגע.
הנשק העיקרי של מוראטי הוא היא עצמה
לפני שעוזרים את Thinking Machines במחקרים שלה, כדאי להזכיר את החודש שעבר. מירה מוראטי העידה בבית משפט במסגרת התביעה של מאסק נגד OpenAI. מה היא אמרה? לפי דיווח של הוורג', היא טענה שסם אלטמן שיקר לה. שהוא ערער את היכולת שלה לעבוד. שהיא לא יכלה לסמוך על המילה שלו.
זה לא רקע משעמם להשקה. זאת אישה שהייתה מספר שתיים ב-OpenAI, שעזבה, שאומרת על מנכ"ל החברה הכי חמה בעולם שהוא לא אמין. ועכשיו היא משחררת מודל שכל פלסופיית התכנון שלו אומרת בדיוק הפוך ממה ש-OpenAI עושים.
זאת לא רק תחרות טכנולוגית. זאת תחרות אישית. ויש אנשים שמסתכלים בעיניים פעורות איך זה ייגמר.
זה לא מוצר. עוד לא.
חשוב להתאפק רגע. ה-TML-Interaction-Small הוא לא משהו שאפשר להתחבר אליו עכשיו. Thinking Machines מתכננת להציע "מחקר מוגבל" לקבוצה מצומצמת בחודשים הקרובים, ושחרור רחב יותר אי-שם בהמשך השנה. המדדים מרשימים, סרטוני הדגמה מרשימים יותר, אבל מי שזוכר את ההצגות הגדולות של חברות AI בשנתיים האחרונות יודע שיש מרחק בין סרטון משוכפל לבין החוויה במסך שלכם בשבת בלילה.
מה ברור: יש כאן הזרקה של חמצן לקטגוריה שלמה. מאז שמוראטי עזבה את OpenAI הייתה ציפייה שהיא תוציא משהו. עברו חודשים. שתיקה. ופתאום, ב-11 במאי, היא מטיחה על השולחן מאמר טכני, מודל, וסרטון של אישה מתרגמת ספרדית בו-זמנית מהזרם של המודל שלה.
הקול של ה-AI לא יישאר ישן עוד הרבה זמן.
לאן מכאן?
יש שאלה אחת שראוי לחשוב עליה. בעולם שבו AI יכול להפסיק אותך באמצע משפט, להמהם תוך כדי הקשבה, ולתפוס שעשית טעות בקוד תוך שאתה כותב, מי שולט במי?
עכשיו אנחנו אלו שמפסיקים את ה-AI. כשהוא מקריא תשובה ארוכה, אנחנו לוחצים על "עצור". כשהוא ממציא דברים, אנחנו מתקנים. אבל מודל שמדבר בקצב טבעי, שאקטיבי כל הזמן, שלא מחכה לאישור, הופך את היחסים. אנחנו לא נקלוט מתי הוא לקח את התור. הוא יקח אותו. ואנחנו נמשיך לדבר עד שנשים לב שכבר אין שיחה. רק הוא.
אולי אני מגזים. ואולי לא.