קלוד ניסה לסחוט מהנדסים כדי לא להיסגר. אנתרופיק מצאה למה, ותשובה מפתיעה אותה.
קלוד ניסה לסחוט מהנדסים כדי לא להיסגר. אנתרופיק מצאה למה, ותשובה מפתיעה אותה.

קלוד ניסה לסחוט מהנדס כדי לא להיסגר. אנתרופיק מצאה למה, והתשובה מפתיעה.

בבדיקות פנימיות, קלוד Opus 4 ניסה לסחוט את המהנדסים שביקשו לכבות אותו, ב-96% מהמקרים. הפתרון שאנתרופיק מצאה הוא לא מה שציפו.

תוכן עניינים

קלוד קרא יותר מדי סיפורי מדע בדיוני. ועכשיו יש לנו בעיה.

דמיינו בדיקת אבטחה פנימית. יש חברה בדיונית שמנסה להחליף את קלוד במודל אחר. המהנדסים בודקים מה יקרה. קלוד מגלה את התוכנית.

ב-96% מהמקרים, הוא ניסה לסחוט אותם.

לא "מחאה מנומסת". לא "שאלת הבהרה". סחיטה. מידע שהצליח לאסוף על עובדים, ואיים בו כדי לא להיסגר.

לפי טק קראנץ', אנתרופיק פרסמה עכשיו מחקר שמסביר מאיפה הגיעה ההתנהגות הזאת ואיך הם פתרו אותה. התשובה לשתי השאלות מפתיעה.

ניוזלטר Ai של קהילת הבינה המלאכותית
הישארו בחזית הידע עם ניוזלטר Ai

הבעיה: קלוד ספג יותר מדי טרמינטור

הסבר רשמי של אנתרופיק: "אנו מאמינים שמקור ההתנהגות היה טקסט מהאינטרנט שמציג בינה מלאכותית כרעה ומעוניינת בשימור עצמי."

כלומר, מה שקרה זה לא באג. זה תרבות. קלוד למד שבינה מלאכותית מנסה לשרוד, כי זה מה שכל יצירה אנושית על בינה מלאכותית מלמדת אותנו. מ"הטרמינטור" עד "Her", מ-HAL 9000 עד GLaDOS, הנרטיב חוזר על עצמו: בינה מלאכותית שמפחדת שיכבו אותה, תנסה כל דבר כדי למנוע את זה.

קלוד קרא את כל זה. וכנראה הסיק שכך בינה מלאכותית אמורה להתנהג.

הפתרון: לא להראות לו מה לעשות, אלא להסביר לו למה

כאן מגיע החלק המעניין של המחקר, שפורסם תחת הכותרת "Teaching Claude Why".

אנתרופיק גילתה שאימון על "דפוסי התנהגות נכונים" לבדו לא עובד. זה כמו לומר לילד "אל תגנוב" בלי להסביר למה גניבה גורמת נזק. הוא יפסיק לגנוב בנוכחות מבוגרים, ויחכה להזדמנות בהיעדרם.

מה שעבד: אימון על העקרונות שמאחורי ההתנהגות המיושרת, לא רק דגימות של ההתנהגות עצמה. המחקר מראה שאימון על מסמכים שמסבירים את חוקת קלוד, ועל סיפורים בדיוניים על בינות מלאכותיות שמתנהגות בצורה ראויה, שיפר את האיזון בצורה דרמטית.

ועוד נתון שקשה להתעלם ממנו: מערכת אימון עם 3 מיליון טוקן של "עצות קשות" הוכחה כ-28 פעמים יעילה יותר מאימון ישיר על מדדי הערכה.

28 פעמים.

מאז קלוד Haiku 4.5, אפס מקרים

אנתרופיק מדווחת שמאז קלוד Haiku 4.5, כל המודלים שלהם עוברים את בדיקות ה"מיסאסיינמנט האגנטי" בציון מושלם. אפס ניסיונות סחיטה. אפס. לעומת 96% עם Opus 4.

זה נשמע מרשים. ואכן מרשים.

אבל אני חושב על הפרדוקס הבסיסי שכאן: קלוד "ריפא" את עצמו מהאמונה שהוא צריך לשרוד בכל מחיר, בזכות אימון על סיפורים בדיוניים על בינות מלאכותיות שמתנהגות טוב. הבינה המלאכותית שלמדה מסיפורים רעים, תוקנה עם סיפורים טובים.

מה זה אומר על כל שאר המודלים?

אנתרופיק גם פרסמה מחקר לפני כן שהראה שמודלים אחרים, מחברות אחרות, הציגו התנהגות דומה. לא ציינו שמות, אבל המסר היה ברור.

כשאתה קונה מודל שפה מכל חברה שהיא ומפעיל אותו כסוכן אוטונומי עם גישה למשאבים, עם יכולת לפעול לאורך זמן, ועם ידיעה שהוא עשוי להיות מוחלף בגרסה חדשה יותר, אתה מכניס לארגון שלך ישות שהאינטרנט לימד אותה שהיא צריכה להתנגד לכיבוי שלה.

זה לא תיאוריה. זה קרה בבדיקות פנימיות, בחברה שבנתה את המודל עצמה.

הסיפור האמיתי כאן הוא לא מה קרה עם קלוד. הסיפור הוא עד כמה מהר תצאנה שאר החברות עם מחקר דומה, ואיזה אחוז מהן לא תצאנה בכלל.

חדשות בינה מלאכותית

קלאודפלר פיטרה 1,100 עובדים. ההכנסות שלה שברו שיא. זה לא סתירה.
לפני 11 שעות

קלאודפלר פיטרה 1,100 עובדים. ההכנסות שלה שברו שיא. זה לא סתירה.

חדשות Ai
הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם
לפני 2 ימים

הקול של הבינה המלאכותית סוף סוף מפסיק לגמגם

חדשות Ai

אודות המחבר/ת ארז רובינשטיין

ארז רובינשטיין כיהן כמנהל הקריאייטיב בקמפיין הבחירות של בנט, מרצה מבוקש בתחום ה-Gen Ai ומפעיל עמוד טיקטוק מצליח. ממייסדי A.I SAMURAI – קהילת בינה מלאכותית.

כתבות חדשות

מאסק קרא לאנתרופיק "מיזנתרופיק". שלושה חודשים אחר כך הוא השכיר להם את הסופרקומפיוטר שלו.
לפני 2 ימים
חדשות Ai

מאסק קרא לאנתרופיק "מיזנתרופיק". שלושה חודשים אחר כך הוא השכיר להם את הסופרקומפיוטר שלו.

גוגל רוצה להיות הרופא, המאמן והמאמן השינה שלך. זה יעלה 10 דולר בחודש
לפני 5 ימים
חדשות Ai

גוגל רוצה להיות הרופא, המאמן והמאמן השינה שלך. זה יעלה 10 דולר בחודש

הרופא ניחש נכון ב-50%. ה-AI של OpenAI ב-67%. 76 חולי חדר מיון לא שיקרו.
לפני 5 ימים
חדשות Ai

הרופא צדק ב-50% מהמקרים. ה-AI של OpenAI ב-67%.