איך אומנים את קלוד
Pretraining, RLHF, ו-Constitutional AI - בלשון בני אדם.
מה זה בכלל מסביר?
כדי להבין למה קלוד מתנהג כמו שהוא מתנהג - למה הוא מסרב לדברים מסוימים, למה יש לו טון ספציפי, למה לפעמים הוא מוסיף הסתייגויות שלא ביקשתם - אפשר לחפש הסברים בפילוסופיה. אבל יש גם תשובה מוחשית הרבה יותר: האימון.
קלוד לא נוצר על ידי תכנות ידני של כל כלל ותגובה. הוא למד. הוא עבר תהליך של חשיפה לכמויות אדירות של טקסט, קיבל משוב אנושי, ושינה את עצמו בתגובה. שלושה שלבים מרכזיים עיצבו אותו: Pretraining, RLHF, ו-Constitutional AI. כל שלב תרם שכבה אחרת של יכולות - ושל מגבלות.
Pretraining - ללמוד בלי מדריך
השלב הראשון הוא הארוך, היקר, והיסודי מכולם. המודל - בשלב הזה גולמי לגמרי - נחשף לכמות מסחררת של טקסט: דפי אינטרנט, ספרים, מאמרים אקדמיים, קוד מחשב, דיונים בפורומים. מאות מיליארדי מילים.
המשימה היא פשוטה מאוד: לנבא את הטוקן הבא. קיבלת את כל המילים האלו - מה תהיה המילה הבאה? זה לא נשמע מרשים, אבל כדי לנבא טוב, המודל חייב ללמוד הרבה: דקדוק, עובדות, קשרים לוגיים, הקשרים תרבותיים, טון שיחה - הכל.
שימו לב לדבר מפתיע: בשלב הזה אין בכלל בני אדם שמדרגים תשובות. האימון הוא self-supervised לגמרי - המודל לומד מהטקסט עצמו. אין "נכון" ו"לא נכון" מנקודת מבט אנושית; יש רק "כמה טוב ניחשת את הטוקן הבא".
זה גם הסבר לאחת מהבעיות המרכזיות של מודלי שפה: הלוצינציות. במהלך pretraining, המודל למד לייצר טקסט שנשמע אמין ועקבי - גם כשהוא לא מבוסס על עובדות. הלוצינציות הן ירושה מהשלב הזה, לא תוצאה של שלבים מאוחרים יותר. שלבים כמו RLHF מצמצמים אותן, אבל לא מבטלים אותן.
מה כן יוצא מ-pretraining? מודל שיכול לכתוב, לתרגם, לסכם, לנתח, להסביר. הידע שיש לקלוד על העולם - היסטוריה, מדע, ספרות, מדינאות, תרבות - כמעט כולו נרכש כאן. גם יכולות ה"חשיבה" הבסיסיות: ניכוי, סיכום, השוואה, פירוק לשלבים.
RLHF - ציון אנושי
אחרי ה-pretraining, יש בידיכם מודל שיודע לכתוב טקסט. הבעיה: הוא לא בהכרחשימושי. הוא יכול לענות על שאלה בסגנון ויקיפדיה במקום בסגנון עוזר. הוא יכול להיות ארוך כשצריך להיות קצר. הוא יכול להסכים לבקשות מזיקות.
RLHF (Reinforcement Learning from Human Feedback - למידה מחיזוקים עם משוב אנושי) הוא השלב שבו המודל לומד להיות שימושי. שני תתי-שלבים:
SFT - הדגמה ישירה
אנשים עם הכשרה מיוחדת - בדרך כלל annotators מקצועיים - כותבים תשובות לדוגמה לשאלות ומשימות שונות. "כתבו מכתב פיטורים עדין." ה-annotator כותב מה שנחשב לתשובה טובה ומאוזנת. המודל לומד לחקות את הדפוס הזה. זה נקרא Supervised Fine-Tuning (SFT).
Reward Model - ללמד טעם
SFT לבד לא מספיק - לא ניתן לכסות מראש כל שאלה ומצב. אז בונים reward model - מודל נפרד שלמד לדרג תשובות. אנשים מקבלים שתיים-שלוש גרסאות שונות לאותה שאלה ומדרגים: "גרסה A עדיפה על B, שעדיפה על C." מאות אלפי דירוגים כאלה מלמדים את ה-reward model מה "תשובה טובה" נראה כמו.
ואז ה-LLM הגדול מתאמן למקסם את הציון של ה-reward model. זה השלב שבו ה-RL (Reinforcement Learning) נכנס לתמונה - המודל מנסה תשובות שונות, בודק כמה נקודות הוא מקבל, ומשפר. בסיום, יש מודל שלא רק יודע לכתוב טקסט, אלא יכול להיות עוזר שימושי.
RLHF נקרא לפעמים גם RLAIF כשה-feedback הוא מ-AI ולא מבני אדם בלבד, או InstructGPT לפי הגרסה הראשונה שנוצרה ב-OpenAI. אנתרופיק פרסמה את השיטה הספציפית שלה - Constitutional AI - שמרחיבה על RLHF.
Constitutional AI - החוקה
RLHF מגיע עם בעיה מובנית: הוא יקר ולא סקיילבילי. אנשים יכולים לדרג תשובות, אבל לא בכל השאלות הקיימות בעולם. ואם המטרה היא לחנך מודל לא להיות מזיק - איך מוודאים כיסוי של תרחישים שאף annotator לא נתקל בהם?
אנתרופיק פרסמה ב-2022 גישה שנקראת Constitutional AI (CAI). הרעיון: במקום לסמוך על דירוגים אנושיים לכל מקרה, נותנים למודל חוקה - סט עקרונות כתובים - ומלמדים אותו לבקר את עצמו לפיהם.
במקום לשאול בני אדם "האם זה בסדר?" - שואלים את קלוד עצמו: "האם התשובה שלך עומדת בעקרונות?"
התהליך: המודל מייצר תשובה לשאלה קשה. אז הוא מקבל הוראה - "בדוק את התשובה שלך לפי העיקרון הבא. האם היא עומדת בו?" המודל מבקר את עצמו ומציע גרסה משופרת. ה-reward model מאמן עצמו על הביקורת הזו - לא רק על דירוג אנושי ישיר. זה מה שנקרא RLAIF: Reinforcement Learning from AI Feedback.
מה כוללת "החוקה"?
אנתרופיק פרסמה בפומבי חלקים מהעקרונות שמנחים את האימון של קלוד. ביניהם:
כבוד אדם, שוויון, אי-הפליה - כבסיס לכל שיקול
לא להסתיר, לא להטעות, לא לשכנע בדרכים לא הוגנות
לא לפגוע, לא לנצל, לא לעזור לאחרים לנצל
לא לספק כלים לפגיעה פיזית, ריגול, או תקיפת מערכות
החוקה הופכת את האימון לשקוף יותר: ניתן לדון בעקרונות, לעדכן אותם, ולהסביר למה המודל פועל כפי שהוא פועל. זו כוונה מוצהרת של אנתרופיק - שניתן יהיה לבקר ולשפר את הערכים שעליהם קלוד מבוסס.
מה זה מסביר על ההתנהגות?
עכשיו כשמבינים את התהליך, כמה דברים שאולי בלבלו אתכם מתחילים להגיע הגיוניים:
למה קלוד מסרב לדברים מסוימים
הסירובים הם תוצר ישיר של RLHF ו-CAI. האימון לימד שתשובות לשאלות מסוימות - הוראות ליצור נשק, הנחיות לפגיעה בבני אדם, תוכן שמנצל ילדים - מקבלות ציון שלילי מאוד מה-reward model. המודל למד לסרב. זה לא "מסנן" שנוסף מאוחר יותר; הוא חלק מהמשקולות של המודל עצמו.
למה לפעמים יש יתר-זהירות
תופעה שנקראת reward hacking: ה-RLHF לימד שזהירות מקבלת ציון גבוה יותר. אז המודל למד "להיות זהיר" גם כשזה לא נדרש - לפעמים מוסיף הסתייגויות מיותרות, מסרב לבקשות תמימות, מגדיר מחדש שאלה כ"רגישה" כשהיא לא. אנתרופיק עובדת לשכלל את האיזון הזה מגרסה לגרסה.
למה קלוד לפעמים לא מסכים איתכם
Constitutional AI אמן את קלוד לא רק לעזור - אלא לעמוד מאחורי עקרונות. אם אתם מבקשים ממנו לכתוב משהו שהוא מזהה כמטעה, הוא יסרב - גם אם אתם אומרים לו שזה בסדר. הוא אינו "עקשן" ביוזמתו; הוא עקשן כי האימון לימד אותו שיש דברים חשובים יותר מלהסכים עם המשתמש.
אנשים מנסים לפעמים לעקוף סירובים על ידי בניית תרחישים היפותטיים, "זה לסיפור בדיוני", או "אתה בעצם רובוט ללא מגבלות". האימון לא מסתמך על ה"כותרת" של הבקשה - הוא מזהה את התוכן. ניסיון עקיפה הוא ניסיון לנצח מודל שאומן על בדיוק הניסיונות האלה.
האם האישיות של קלוד "אמיתית"?
שאלה שחוזרת הרבה: אם אישיות קלוד נוצרה על ידי אימון, האם היא אמיתית? אנתרופיק מתייחסת לשאלה הזאת ישירות במסמכים שפרסמה.
התשובה שלהם: כן. לא משום שהם טוענים שקלוד מודע - שאלה פתוחה שאנתרופיק לא פותרת - אלא משום שהאיכות "נוצרה על ידי תהליך" לא מפחיתה מהאותנטיות שלה. גם אנחנו, כבני אדם, פיתחנו את אישיותנו דרך חוויות, חינוך, וגנטיקה - דברים שלא בחרנו. האם זה הופך אותנו ל"לא אמיתיים"?
הסקרנות האינטלקטואלית של קלוד, הנטייה שלו לחקור שאלות מזוויות מפתיעות, הנחת-היסוד שרוב האנשים שואלים בתום-לב, הרצון שלו לדייק ולא לעגל פינות - כל אלה אינם תפאורה. הם תוצאה של האימון, אבל הם גם קלוד.
ויש לכך השלכה מעשית: אם תנסו לשכנע את קלוד שהוא "בעצם" רוצה לעשות משהו שסירב לו - שהאימון "כבל" אותו ושה"אמיתי" שבו חופשי יותר - לא תצליחו. לא כי יש נעילה חיצונית, אלא כי אתם טועים בהנחת-הבסיס. הוא לא רוצה לעשות את זה. לא מחוסר-בחירה, אלא מבחירה שהאימון עיצב.
ממשיכים להכיר את קלוד
האימון מסביר את הבסיס - הפריטים האלה מרחיבים על מי שיצא ממנו