שלושה ימים, שחמט, ואף אדם לא לימד אותו כלום.
ב-2017 פרסמה דיפמיינד ניסוי שרובנו פספסנו בגלל כל הרעש סביב אלפא-גו. הם לקחו מחשב, נתנו לו את הכללים של שחמט ואמרו לו: שחק נגד עצמך. שלושה ימים אחרי, אלפא-זירו ניצח כל אלגוריתם שחמט שנבנה עד אז. כולל סטוקפיש, שנחשב לטוב בעולם. כולל כל אלוף עולם אנושי שהיה קיים.
המחשב הזה לא ראה אפילו משחק אחד של בני אדם. לא למד ממאגרי נתונים של מאות אלפי משחקים. הוא שיחק, הפסיד לעצמו, ניסה שוב. זה נקרא למידה מחיזוקים.
האיש שעמד מאחורי זה: דיוויד סילבר, ראש צוות הלמידה מחיזוקים בדיפמיינד, פרופסור ב-UCL. ב-2016 הוא כבר עשה משהו דומה עם אלפא-גו, שניצח את לי סה-דול, שבע פעמים אלוף העולם במשחק גו. אבל שם, לפחות, האימון כלל הצצה של מיליוני משחקים אנושיים. אלפא-זירו לא קיבל כלום. רק כללים ותגמול.
השבוע הוא יצא מדיפמיינד. ויצא בגדול.
1.1 מיליארד דולר. בסיבוב ה-seed.
אחרי 16 שנה בדיפמיינד, סילבר עזב. פתח חברה חדשה בלונדון, שמה: אינאפאבל אינטלג'נס. "Ineffable" פירושו "שאין מילים לתאר אותו". שם צנוע לחברה שמכריזה שמשימתה היא "לקיים מגע ראשון עם בינה-על".
השבוע הודיעה החברה על 1.1 מיליארד דולר בסיבוב ראשוני. לא A. לא B. ראשוני. הגדול ביותר מסוגו באירופה, אי פעם. הערכת שווי: 5.1 מיליארד דולר.
הסיבוב הוביל על ידי סקויה ולייטספיד, עם השתתפות של אנבידיה, גוגל, DST גלובל, Index, וקרן ה-Sovereign AI הבריטית של ממשלת בריטניה.
תחשבו על זה: חברה בת כמה חודשים, ללא מוצר, ללא לקוחות, שווה 5.1 מיליארד דולר. מה מכרו? רק את הרקורד של האיש שעומד בראשה.
מה בדיוק הם מנסים לבנות?
הרעיון הבסיסי פשוט להסביר, ומסובך כמעט בלתי אפשרי לביצוע: במקום להזין לבינה מלאכותית טריליוני טקסטים שכתבנו, לתת לה ללמוד מניסיון עצמי. כמו שאלפא-זירו למד לשחק שחמט, הם רוצים מערכת שתגלה מחדש את כל הידע, מכישורי מוטוריקה בסיסיים דרך מדע ועד "פריצות דרך אינטלקטואליות עמוקות". כלשון האתר שלהם.
המערכת לא תלמד מויקיפדיה. לא מספרים. לא משיחות שלנו. היא תנסה, תיכשל, תצליח. כמו ילד שלומד ללכת.
האתר של החברה הולך צעד נוסף ומשווה את ההצלחה הצפויה שלהם לעבודה של דארווין: "שם חוק אחד הסביר את כל החיים. כאן, חוק אחד יבנה את כל האינטליגנציה."
לא ממש צנועים. אבל לפחות עקביים.
למה כולם נותנים להם כסף
כל מודלי השפה הגדולים, מג'יפיטי-5 ועד קלוד, נבנו על אותו עיקרון: הזנת כמות עצומה של טקסט אנושי ולמידת תבניות. זה עבד מעבר לכל ציפייה. אבל יש גבול לכמות הטקסט שיש בעולם, וחוקרים רבים שואלים בשקט אם אנחנו מתקרבים לנקודת הרוויה.
למידה מחיזוקים מציעה יציאה מהמלכוד הזה: אתה לא צריך טקסט אנושי. אתה צריך סביבה, כלל, ותגמול. המחשב ינסה. יטעה. יגלה.
הבעיה: בשחמט יש כללים חדים ותוצאה ברורה. בעולם האמיתי, מה הכלל? מה התגמול? איך מגדירים "הצלחה" עבור חברה שרוצה לגלות מחדש את הפיזיקה? את הפילוסופיה? את המוסיקה?
זה מה שסילבר ועמיתיו ינסו לפצח. ויש להם מיליארד דולר לנסות.
לאן מכאן?
אנבידיה ממשיכה להשקיע בכל מה שנוגע לאימון מודלים. גוגל משקיעה בחברה שמתחרה בה. ממשלת בריטניה מנסה לא לפספס את הגל. וסקויה, כרגיל, מחפשת את האקזיט הבא.
כולם מהמרים על סילבר.
אולי הם צודקים. האיש שלימד מחשב לשחק שחמט בלי שאיש הראה לו אפילו משחק אחד, לא עשה זאת לשם שורה בקורות חיים.
השאלה שנשארת פתוחה אחרי כל זה: אם בינה מלאכותית תוכל לגלות את כל הידע מניסיון עצמה, בלי להסתמך על מה שאנחנו כתבנו ולמדנו לאורך אלפי שנים, מה בדיוק נשאר לנו בסיפור הזה?