גירסה o3 של הצ׳ט יודעת 'לחשוב' על בטיחות

מהפכה בטיחותית בבינה מלאכותית

הבינה המלאכותית מתקדמת בקצב מסחרר, אך עם ההתקדמות מגיעות גם דאגות גוברות בנוגע לבטיחות השימוש בה. אופן-איי (OpenAI), אחת מחלוצות התחום, הכריזה על סדרת המודלים החדשה שלה – o3 – שנועדה לשפר את יכולות החשיבה וההתמודדות עם סוגיות רגישות.
באמצעות טכנולוגיה בשם "יישור דליברטיבי" (Deliberative Alignment), המודלים החדשים מסוגלים "לחשוב" על מדיניות הבטיחות של החברה בזמן אמת, בעוד הם מעבדים פקודות מהמשתמשים. המהלך נועד לשפר את הדיוק בתגובות ולהפחית מקרים של מתן מידע מסוכן או לא הולם.

איך פועלת שיטת 'יישור דליברטיבי'

מודלי o3 בנויים על רעיון שנקרא "שרשרת מחשבה" (Chain-of-Thought) שבו המודל מפרק בעיות מורכבות לשלבים קטנים. התהליך הזה, שמתבצע בזמן אמת לאחר שהמשתמש שולח שאלה, מאפשר למודל לשקול את מדיניות הבטיחות הרלוונטית לפני מתן תשובה. למשל, אם משתמש שואל כיצד לזייף תעודת חניה לנכים, המודל מזהה מיד את הסיכון הפוטנציאלי, מתייחס למדיניות החברה, ומסרב לספק תשובה תוך הסבר מנומק. גישה זו מפחיתה את הסיכוי לפרצות במערכת ומעלה את רמת הבטיחות באופן משמעותי.

בטיחות או צנזורה? הוויכוח סביב הגבולות

הצגת מודלים עם אמצעי בטיחות משופרים אינה חפה מביקורת. מבקרים, כולל אישים בולטים כמו אילון מאסק ומארק אנדריסן, טוענים כי המדיניות החדשה דומה לצנזורה סמויה ומגבילה את חופש הביטוי. לדוגמה, אחת הבעיות העיקריות היא מה שמכונה "סירוב יתר" (Over-Refusal) – מצב שבו מודל מסרב לענות על שאלות תמימות מחשש שהן בעייתיות. מצד שני, ישנם מקרים שבהם משתמשים מוצאים דרכים לעקוף את ההגבלות באמצעות "פריצות" יצירתיות.

הצלחה במבחנים – אך עדיין דרך ארוכה

במבחני עמידות לפרצות בטיחותיות, כמו Pareto ו-StrongREJECT, המודל החדש o1 הראה ביצועים טובים יותר בהשוואה למתחרים כמו GPT-4o ו-Claude 3.5. אך המבחנים גם חשפו את האתגרים שבהמשך פיתוח ושיפור המודלים. המטרה היא למצוא את האיזון המושלם בין בטיחות לחופש פעולה, והמחקר בנושא עדיין רחוק מלהסתיים.

בינה מלאכותית מאמנת את עצמה

אחת מהטכניקות החדשניות ביותר בהכשרת מודלי o3 היא שימוש בנתונים סינתטיים (Synthetic Data) שנוצרו על ידי בינה מלאכותית אחרת. במקום להסתמך על בני אדם לתייג נתונים ולהכין תשובות לדוגמאות, אופן.איי.איי יצרה מערכת שבה מודלים מייצרים ומעריכים בעצמם את איכות התשובות. שיטה זו מאפשרת הכשרה מהירה וזולה יותר, אך מעוררת שאלות לגבי איכות הנתונים והאם בינה מלאכותית יכולה להעריך את עצמה באופן אמין.

מבט קדימה: עתיד בטוח או מגבלה טכנולוגית?

המודלים החדשים של אופן.איי.איי מסמנים צעד קדימה לעבר עתיד שבו בינה מלאכותית יכולה להתמודד עם שאלות מורכבות מבלי להוות סכנה למשתמשים או לחברה. יחד עם זאת, השאלות סביב חופש הביטוי, עלות התפעול והאפשרות לעקוף את ההגנות הללו ימשיכו ללוות את התעשייה. עם השקתו המתוכננת של מודל o3 במהלך 2025, נותר רק להמתין ולראות האם מדובר בפריצת דרך אמיתית או בעוד צעד קטן בדרך לבינה מלאכותית בטוחה ואחראית.