הבנת באיזה תרגול ChatGPT מתאמן
התקדמות הצ'אטבוט גדלה במהירות עם ChatGPT[1] של OpenAI המוביל בחזית. ChatGPT זה, שהוכשר על מגוון רחב של נתוני טקסט באינטרנט[3], משתמש בלמידת מכונה כדי להציג טקסט שדומה להפליא בדמות אנושית[2].
חקר את מערך ההדרכה עבור ChatGPT
כדי להבין על מה ChatGPT מאומן, יש להתעמק במקור הנתונים העצום שלו. בעוד ש-OpenAI לא חושפת את המסמכים הספציפיים של מודל הבינה המלאכותית – ChatGPT מאומן ב[4], שפע של תוכן מגוון שחולץ מהאינטרנט מרכיב את מערך הנתונים, מה שמעשיר את יכולתו של מודל הבינה המלאכותית ליצור תגובות מגוונות [5].
אימון ChatGPT על תוכן אינטרנט מגוון
יש לציין שתהליך ההדרכה של ChatGPT לא כלל בחירה ידנית של מסמכים או מסדי נתונים מסוימים. במקום זאת, כמות משמעותית של נתונים נאספה ממקורות אינטרנט שונים, המגבים את הרבגוניות של מודל הבינה המלאכותית ביצירת תגובות[5].
היבטים ייחודיים בהדרכה של ChatGPT
ההבנה של מה ChatGPT מאומן כרוכה גם בשפך אור על גישת הלמידה הייחודית לחיזוק משוב אנושי (RLHF)[6]. זה מתחיל בלמידה בפיקוח ולאחר מכן עובר ללמידה חיזוקית באמצעות נתוני השוואה[7].
למידה מפוקחת בהדרכה של ChatGPT
בשלב הלמידה המפוקחת, מאמני AI לוקחים על עצמם תפקידים כפולים – כאדם המשתמש בצ'אטבוט וכעוזר AI עצמו. גישה להצעות שנכתבו במודל מסייעת להם ביצירת תגובות[8]. חלק זה של השיחה מתערבב עם מערך נתונים ישן שעבר מטמורפוזה לפורמט דיאלוג, מה שמשפר את כישורי השיחה של ה-AI[9].
החיזוק של ChatGPT למידה ממשוב אנושי
למידת חיזוק משכללת את המודל באמצעות מודל תגמול שנוצר מנתוני השוואה המכילים תגובות מודל מרובות המדורגות לפי איכות[10]. מבחינה זו, ChatGPT משתמש באלגוריתמים של אופטימיזציה של מדיניות פרוקסימלית[11].
מה הופך את ChatGPT לרב-תכליתי
עם ההכשרה שלו על מערך של נתוני טקסט באינטרנט ושילוב של למידה מפוקחת וחיזוק, ChatGPT, המסוגל לייצר טקסט רלוונטי דמוי אדם[12] לוקח את הרבגוניות לרמה חדשה. למרות שיש כמה מגבלות וחששות, שיפורים מתמשכים מכוונים לאינטראקציות משתמש מבוקרות ובטוחות יותר[13].
מקורות:
[1] OpenAI: ChatGPT
[3] כוונון עדין של מודלים של שפה גדולה
[4] מדיניות פרטיות:
[5] נתוני אינטרנט מגוונים עבור דוגמנות שפות
[6] למידה של חיזוק ממשוב אנושי: סקירה כללית
[7] כיוונון וחיזוק למידה במודלים של שפות גדולות
[8] למידה מפוקחת ב-Conversational AI
[9] המרת מערכי נתונים לפורמט דיאלוג
[10] דירוג תגובות המודל בלימוד חיזוק
[11] אלגוריתמים של אופטימיזציה של מדיניות פרוקסימלית