מהפכה בעולם הבנייה: מילה הופכת למבנה
הדמיון האנושי מקבל חיזוק טכנולוגי משמעותי עם פיתוח LegoGPT – מודל בינה מלאכותית חדשני מבית היוצר של אוניברסיטת קרנגי מלון. המערכת המהפכנית מאפשרת למשתמשים להקליד תיאור טקסטואלי פשוט (פרומפט) ולקבל תכנית בנייה מפורטת לדגם לגו תואם, שניתן להרכיב בפועל בעולם האמיתי.
בין אם תתארו "ספינה ארוכה וצרה", "גיטרה קלאסית" או "מכונית ספורט עם גריל קדמי בולט", המערכת מסוגלת לתרגם את המילים הללו למבנה לגו ממשי שלא רק תואם את התיאור, אלא גם עומד בחוקי הפיזיקה ויכול להיבנות בידי אנשים או אפילו זרועות רובוטיות.
וידאו שהופץ ע״י החוקרים – שני זרועות רובוטיים בונים גיטרה עם לגו ג׳יפיטי
עכשיו, דמיינו את ההתפתחויות האפשריות של מודל כזה – בניית בתים באמצעות פרומפט. בניית משחקים חדשים באמצעות פרומפט. השמיים הם הגבול.
מאחורי הקלעים: איך זה עובד?
בבסיס LegoGPT עומד מודל שפה אוטורגרסיבי – אותו סוג טכנולוגיה שמופעל גם במודלים כמו ChatGPT, אך במקום לחזות את המילה הבאה בטקסט, הוא מותאם לחזות את הלבנה הבאה שיש להוסיף למבנה הלגו. החוקרים מקרנגי מלון לקחו את מודל LLaMA-3.2-1B-Instruct של Meta וכיוונו אותו מחדש למשימה הייחודית הזו.
המודל אומן על מאגר נתונים חדש בשם StableText2Lego, שנוצר במיוחד לפרויקט זה. המאגר כולל מעל 47,000 מבני לגו יציבים ו-28,000 אובייקטים תלת-ממדיים ייחודיים, מכיסאות ושולחנות ועד מכוניות, ספינות וגיטרות. לכל אובייקט במאגר צורפו תיאורים מפורטים שנוצרו על ידי GPT-4o של OpenAI.

תהליך יצירת מאגר הנתונים היה מורכב:
תחילה, המערכת המירה מודלים תלת-ממדיים ממאגר ShapeNetCore לרשת תאים בגודל 20×20×20.
לאחר מכן, המודלים הומרו לפריסת לבני לגו באמצעות אלגוריתם "legolization" מיוחד.
לכל מודל נוצרו מספר גרסאות שונות תוך שמירה על הצורה הכללית.
כל דגם עבר בדיקת יציבות קפדנית, וגרסאות לא יציבות סוננו.
כל מבנה צולם מ-24 זוויות שונות, והתמונות הוזנו ל-GPT-4o שיצר תיאורים גיאומטריים מפורטים.
הבטחת יציבות: בדיקות פיזיקליות מתקדמות
אחת הבעיות המרכזיות בבניית דגמים באמצעות בינה מלאכותית היא הבטחת יציבותם הפיזית. רבים מהכלים הקיימים מייצרים מודלים שנראים נהדר בתצוגה דיגיטלית, אך אי אפשר לבנות אותם במציאות – הם פשוט יתמוטטו.
LegoGPT מתמודד עם אתגר זה באמצעות מערכת הנקראת "physics-aware rollback" (חזרה לאחור פיזיקלית). בתהליך הבנייה, המערכת מוסיפה לבנה אחר לבנה, ובודקת בכל שלב את תקפות ההוספה:
תחילה, נבדק אם הלבנה החדשה קיימת בספריית החלקים ואינה חופפת ללבנים קיימות.
בסיום הבנייה, נבדקת יציבות המבנה כולו באמצעות מודלים מתמטיים המדמים כוח משיכה וכוחות מבניים.
אם המערכת מזהה שהמבנה אינו יציב, היא חוזרת לנקודת היציבות האחרונה ומנסה גישה אחרת.
תוצאות הניסויים מרשימות: ללא מערכת ה-rollback, רק 24% מהמבנים היו יציבים. עם המערכת המלאה, 98.8% מהמבנים שנוצרו יכולים לעמוד בפועל!
"המטרה שלנו הייתה ליצור מערכת שלא רק מייצרת דגמי לגו יפים ומרשימים, אלא כאלה שאפשר באמת לבנות ולהציב על המדף," מסבירים החוקרים במאמרם. "רצינו לגשר על הפער בין יצירתיות לשימושיות."
יישומים עתידיים: רובוטים ובנייה אוטומטית
הפוטנציאל של LegoGPT חורג מעבר לבנייה ידנית. המערכת תוכננה כך שתוכל להשתלב עם זרועות רובוטיות, המאפשרות בנייה אוטומטית של הדגמים. החוקרים כבר הדגימו זאת במעבדתם, כאשר צמד זרועות רובוטיות הצליח להרכיב מבנה שתוכנן על ידי LegoGPT.
יכולת זו פותחת אפשרויות מרתקות:
חנויות לגו שיוכלו להציע עיצובים מותאמים אישית שייבנו במקום.
סביבות למידה שבהן תלמידים יוכלו לתכנן במילים ולראות את הרעיונות שלהם הופכים למציאות.
מערכות פרוטוטייפינג מהירות למעצבים ואדריכלים.
יתר על כן, החוקרים מפתחים גם שיטה לצביעה וטקסטורה של דגמי הלגו באמצעות טקסט, מה שירחיב עוד יותר את היכולות היצירתיות של המערכת.
מגבלות ואתגרים לעתיד
למרות ההתקדמות המרשימה, LegoGPT עדיין ניצב בפני מספר מגבלות. בגרסה הנוכחית, המערכת עובדת בתוך מרחב בנייה של 20×20×20 יחידות בלבד, ומשתמשת בשמונה סוגי לבנים סטנדרטיות בלבד.
"המערכת שלנו כרגע תומכת בסט קבוע של לבני לגו נפוצות," מודים החוקרים. "בעבודה עתידית, אנו מתכננים להרחיב את ספריית הלבנים כדי לכלול מגוון רחב יותר של מידות וסוגי לבנים, כמו שיפועים ואריחים."
האתגר הגדול ביותר הוא להרחיב את המערכת כך שתוכל ליצור מבנים מורכבים יותר עם פרטים עדינים יותר, מבלי לפגוע ביציבות או בבהירות ההוראות. המערכת גם מוגבלת כרגע לתיאורים גיאומטריים בעיקר, ופחות טובה בעיצוב מבנים עם אלמנטים תמטיים או נרטיביים מורכבים.
גישה חופשית: זמינות לציבור הרחב
בצעד מעורר השראה, החוקרים שחררו את הקוד, המודלים ומאגר הנתונים של LegoGPT לציבור הרחב. כל החומרים זמינים בחינם בגיטהאב, מה שמאפשר למפתחים, חובבי לגו ומחנכים להתנסות בטכנולוגיה ולשלב אותה בפרויקטים שונים.
הגישה הפתוחה הזו מעודדת חדשנות ושיתוף פעולה בקהילת הבנייה והחינוך, ופותחת את הדלת לשיפורים והרחבות שיתרמו כולם להתפתחות התחום.
"אנחנו מאמינים שהשילוב בין בינה מלאכותית ובנייה פיזית הוא תחום עם פוטנציאל עצום," כותבים החוקרים. "על ידי שחרור הכלים שלנו לקהילה, אנו מקווים לראות יישומים ושיפורים שלא חשבנו עליהם."
שילוב של יצירתיות וטכנולוגיה
LegoGPT מייצג את השילוב המרתק בין יצירתיות אנושית לטכנולוגיה מתקדמת. היכולת להפוך מילים למבנים פיזיים יציבים פותחת דלתות חדשות לעולם הבנייה, החינוך והעיצוב, ומדגימה כיצד בינה מלאכותית יכולה לשמש ככלי יצירתי בידי אנשים מכל הגילים והרקעים.
בעולם שבו בינה מלאכותית מאיימת לעתים על יצירתיות אנושית, LegoGPT מציע חזון אופטימי יותר – עתיד שבו טכנולוגיה מתקדמת אינה מחליפה את האדם, אלא מעצימה את היכולות היצירתיות שלו ומסייעת לו להגשים רעיונות בדרכים חדשות ומרגשות.
אולי בקרוב, הביטוי "אם אתם יכולים לדמיין את זה, אתם יכולים לבנות את זה" יקבל משמעות חדשה לגמרי – אם אתם יכולים לתאר את זה במילים, LegoGPT יכול לבנות את זה בלגו.