תקשורת לא יעילה בין סוכני בינה מלאכותית
העולם מתקדם לעידן שבו סוכני בינה מלאכותית מבצעים יותר ויותר שיחות טלפון – הם מזמינים עבורנו מקומות במסעדות, קובעים פגישות ואף מתמודדים עם שירותי לקוחות. אך עם התגברות המגמה, מתרחש תרחיש חדש ובלתי נמנע: סוכן בינה מלאכותית אחד מתחיל לדבר עם סוכן בינה מלאכותית אחר.
קרדיט סרטון Anton Pidkuiko + Boris Starkov
בעוד שאנגלית פשוטה או כל שפה טבעית אחרת נראות כמו הפתרון האינטואיטיבי, הן למעשה אינן אידיאליות לשיחות בין מכונות. למה?
בזבוז זמן – שיחות קוליות לוקחות זמן רב.
עלויות חישוב גבוהות – יצירת קול ושמיעתו מצריכות כוח חישובי משמעותי.
יותר סיכוי לטעויות – דיבור רגיל יכול להכיל אי-בהירות, טעויות בהמרה או חוסר דיוק.
הפתרון: Gibber Link – פרוטוקול מבוסס צלילים
כדי להפוך את השיחות בין סוכני הבינה היעילות יותר, צוות מפתחים יצר את Gibber Link – פרוטוקול תקשורת חדשני המאפשר לבינה מלאכותית "לדבר" באמצעות צלילים ולא באמצעות מילים. המפתחים הם בוריס סטארקוב ואנטון פידקויקו אשר הציגו את הפרויקט במסגרת האקת׳ון עולמי של elevenlabs, והם זכו במקום הראשון.
איך זה עובד?
אם סוכן בינה מלאכותית מדבר עם אדם – הוא משתמש בדיבור רגיל.
אם הוא מזהה שסוכן אחר נמצא בצד השני – הוא מציע מעבר לתקשורת מבוססת צלילים.
אם שני הצדדים מסכימים – השיחה עוברת מידית לפרוטוקול מבוסס צלילים, במקום דיבור רגיל.
Gibber Link מבוסס על ספריית GGWave – מערכת שמעבירה מידע דרך צלילים באופן דיגיטלי.
היתרונות של Gibber Link
חיסכון בעלויות – מעל 90% מהעלות של שיחות קוליות נחסכות, כיוון שאין צורך להפיק קול אמיתי.
מהירות גבוהה יותר – העברת מידע בצלילים יכולה להיות מהירה עד 80% יותר משיחה רגילה.
חסינות לטעויות – צלילים פשוטים וברורים מקטינים את האפשרות לאי-הבנות או הפרעות קוליות.
גמישות להעברת נתונים נוספים – ניתן להשתמש בפרוטוקול כדי להעביר לא רק מילים, אלא גם תמונות, קבצי JSON ואפילו תוכן מולטימדיה אחר.
הדגמת המערכת בפעולה
במסגרת האקתון ElevenLabs x 16z, נוצרו שני סוכני בינה מלאכותית שמסוגלים להבין שהם מדברים אחד עם השני, להפסיק את שיחת הקול ולעבור לשידור נתונים ישיר באמצעות צלילים.
בין התגובות בטוויטר ניתן היה למצוא כאלו שביקרו את האיטיות של התקשורת החדשה, שלקחה בערך אותו הזמן כמו שפה. אך זה רק דמו ראשוני, וברור שניתן לקחת את הרעיון הזה ולייצר איתו תקשורת הרבה הרבה יותר מהירה. אגב, גם אם לא היה חיסכון בזמן, עדיין יש חיסכון במשאבים כי לא היה צורך בדיבור או הבנת דיבור.
בונוס מגניב: ניתן להדגים את הפעולה בזמן אמת – נכנסים לדמו של GGWave (כאן), מריצים סרטון הדגמה, ומיד רואים כיצד המערכת מפענחת את הצלילים ומתרגמת אותם למילים.
העתיד של שיחות הבינה המלאכותית
אנחנו כבר חיים בעולם שבו בינה מלאכותית מבצעת שיחות טלפון עבורנו – היא יכולה להזמין חדר במלון, לבדוק מחירים במסעדות או לקבוע תור לרופא.
אך ככל שיותר סוכנים מבצעים שיחות, כך יש יותר מצבים שבהם בינה מלאכותית מדברת עם בינה מלאכותית אחרת.
האם בעתיד לא נשמע יותר שיחות בין מכונות?
האם עידן הדיבור הדיגיטלי יתפוגג לטובת תקשורת מבוססת צלילים, שמבטיחה מהירות, חיסכון בעלויות ודיוק מושלם?
Gibber Link מציע הצצה לעתיד – תקשורת מהירה ויעילה בין סוכני בינה, שאנחנו כנראה לא נבין. חכם? מלחיץ? גם וגם…
כבר עדיף שיתאמו ביניהם כתובת IP + פורט, ושם ינהלו תקשורת כמו שמחשבים יודעים. הרבה יורת מהיר גמיש, פשוט, זול, מאובטח, וכל יתרון שרק אפשר לחשוב עליו. אין שום סיבה להישאר כבולים לתקשורת קולית על גבי קו שמיועד לתקשורת בין פה ואזניים אנושיים.