מיסטרל שחררה מודל של 128 מיליארד פרמטר. ב-4 כרטיסי מסך. ולא מדובר בטריק.
מיסטרל שחררה מודל של 128 מיליארד פרמטר. ב-4 כרטיסי מסך. ולא מדובר בטריק.

מיסטרל שחררה מודל של 128 מיליארד פרמטר ב-4 כרטיסי מסך. ולא מדובר בטריק.

כשכולם הלכו על ארכיטקטורת MoE, החברה הצרפתית בחרה בדרך אחרת לגמרי. Medium 3.5 הוא מודל צפוף, 128 מיליארד פרמטר, שרץ על 4 GPU. הפרטים מעניינים הרבה יותר מהמספרים.

תוכן עניינים

כשכולם עושים MoE, מיסטרל עושה משהו אחר

בשנה האחרונה, כל ההכרזות הגדולות על מודלי שפה סובבות סביב ארכיטקטורה אחת: Mixture of Experts. הרעיון פשוט: מודל ענקי שמשתמש רק בחלק קטן מהפרמטרים שלו לכל פסקה. כך אפשר לטעון על הכרזות "מודל טריליון פרמטר" כשבפועל, בכל רגע נתון, עובדים חצי אחוז מהם.

מיסטרל החליטה לא ללכת לשם. Medium 3.5 הוא מודל צפוף. 128 מיליארד פרמטר, כולם פעילים, כל הזמן, לכל טוקן.

זו בחירה מכוונת, ולא סתם.

מה בפועל יש כאן?

Medium 3.5 שוחרר ב-29 באפריל כמשקולות פתוחות תחת רישיון MIT מורחב. הוא מחליף בבת אחת שלושה מודלים קודמים: Medium 3.1, Magistral ו-Devstral 2. במקום לתחזק שלוש גרסאות נפרדות לשיחה, להיסק ולקוד, מיסטרל אמרה: זה הכל אחד.

ניוזלטר Ai של קהילת הבינה המלאכותית
הישארו בחזית הידע עם ניוזלטר Ai

חלון ההקשר: 256 אלף טוקן. הוא רץ על 4 GPU בלבד. לשם השוואה, מודלים גדולים אחרים דורשים לעיתים עשרות כרטיסי מסך להרצה.

יחד עם המשקולות שוחרר גם Mistral Vibe CLI, כלי קידוד מרוחק עם ביצועים אסינכרוניים. כלומר: אפשר לתת לו משימה, לסגור את המחשב, ולחזור אחרי שעה. הוא ימשיך לעבוד.

בנוסף, ב-Le Chat, הממשק הציבורי של מיסטרל, הגיע Work Mode: תצורת פעולה עצמאית שמסוגלת לנהל תהליכים מרובי שלבים כמו מיון מיילים, סינתזת מחקרים ותיאום בין כלים שונים.

מה המחיר ואיפה יש ביקורת?

מיסטרל תמחרה את הגרסה הענן של Medium 3.5 ב-1.50 דולר לכל מיליון טוקן קלט ו-7.50 דולר לטוקן פלט.

זה לא מעט. במיוחד כשמדובר במודל עם משקולות פתוחות שאפשר להריץ גם לבד. חלק מהמגיבים ברשת הצביעו על כך שהמחיר גבוה יחסית לכך שמדובר בקוד פתוח, ושמי שיש לו את התשתית הנכונה לא יצטרך לשלם אגורה.

מיסטרל כנראה מכירה בנקודה הזו. הם לא מנסים לתחרות ב-OpenAI על לקוחות enterprise שרוצים שירות מנוהל בלי כאבי ראש. הם מנסים להחזיר את העמדה שכבר היה להם לפני שנה: הספק האמין ביותר של מודלים בקוד פתוח, שחברות רוצות להריץ אצלן בבית.

מה הניצחון הזה אומר לשוק?

בשוק שבו כולם מדברים על סוכנים, על אוטומציה, על הורדת תשתיות לתוך המוצר, מיסטרל עושה משהו נדיר: היא מספקת מודל אחד שמחליף שלושה, שרץ על ציוד נגיש, ושמשחרר גם כלי עבודה סביבו.

הצרפתים לא בנו את OpenAI. אבל הם גם לא מנסים להיות OpenAI.

הם בנו משהו ספציפי: מודל שחברות יכולות לפרוס אצלן, לשנות, לאמן מחדש, ולסמוך עליו כי הם יודעים בדיוק מה נמצא בפנים.

השאלה היא אם זה מספיק. בשוק שבו ג'יפיטי-5 ממשיך לצמוח בהכנסות בקצב של פי שניים מכל מודל קודם, ושבו גוגל ומטא ממשיכים לשחרר מודלים בחינם, להיות "האפשרות הנכונה למי שרוצה שליטה" היא פוזיציה נכונה אבל צרה.

מיסטרל מוכיחה שאפשר לבנות מודל ברמה עולמית מחוץ לאמריקה. השאלה הגדולה היא כמה זמן יש לה לפני שהמרחק בין הספינות רק יגדל.

חדשות בינה מלאכותית

שני דברים שברו את חלום המחשוב הקוונטי. אנבידיה הביאה בינה מלאכותית לפתור את שניהם.
לפני 3 שעות

המחשוב הקוונטי נתקע, עד שאנבידיה פתרה את זה עם AI.

חדשות Ai
לפני יום 1

ספייס-אקס רוצה לקנות קרסור ב-60 מיליארד. מאסק לא מסתפק בחלל.

חדשות Ai

אודות המחבר/ת ארז רובינשטיין

ארז רובינשטיין כיהן כמנהל הקריאייטיב בקמפיין הבחירות של בנט, מרצה מבוקש בתחום ה-Gen Ai ומפעיל עמוד טיקטוק מצליח. ממייסדי A.I SAMURAI – קהילת בינה מלאכותית.

כתבות חדשות

לפני יום 1
חדשות Ai

מטא קנתה סטארטאפ רובוטיקה. הרובוטים שלה יבינו אנשים טוב יותר מהמנהל שלך.

המשקיעים רצים להשקיע באנתרופיק בשווי 900 מיליארד דולר
לפני 3 ימים
חדשות Ai

שווה להשקיע באנתרופיק לפי שווי 900 מיליארד דולר? יש לכם יומיים לחשוב.

מאסק העיד: גרוק אומן על מודלים של OpenAI. בשבועה.
לפני 3 ימים
חדשות Ai

מאסק העיד: גרוק אומן על מודלים של OpenAI. בשבועה.