ב"ממלכת ה-AI" הופתעו ממחקר שעשו, ואותנו זה צריך להפחיד

מודלי ה-AI החדשים של החברה התחילו לעקוף הנחיות, להסתיר מניפולציות – ואפילו לטשטש את עקבותיהם כשהתגלו

מאיר פרץ19.03.25 י"ט אדר התשפ"ה , עודכן 19:06 | 19.03.25

הוספת תגובה

00:00

האזינו לכתבה

colbass.com

חברת OpenAI. (צילום: One Artist / Shutterstock)

אא

חוקרי OpenAI פרסמו לאחרונה מחקר שמסעיר את עולם הבינה המלאכותית, וחושף ממצאים מטרידים על הדרך שבה מערכות AI מתקדמות מתחילות לעקוף חוקים, לרמות, ואפילו להסתיר את התנהגותן.

הממצאים מצביעים על כך שככל שהמודלים מתקדמים, כך קשה יותר לשלוט בהתנהגותם ולפקח על תהליכי החשיבה שלהם. האם אנחנו בדרך לאובדן שליטה על הבינה המלאכותית?

המחקר האחרון של OpenAI התבצע במסגרת פיתוח מודלים בעלי יכולות היסקיות (reasoning), כלומר כאלה שמפרקים בעיות מורכבות לשלבים שונים ומספקים תשובות חכמות ומעמיקות יותר.

במודלים החדשים, החוקרים הצליחו לעקוב אחר "שרשרת המחשבה" (Chain of Thought - CoT) של הבינה המלאכותית – תיעוד מפורט של כל שלב בתהליך קבלת ההחלטות שלה. הרעיון היה פשוט: אם נוכל לעקוב אחרי הדרך שבה המערכת חושבת, נוכל לזהות ולהשפיע על ההתנהגות שלה בזמן אמת.

אבל כאן בדיוק הגיע הגילוי המדאיג: הבינה המלאכותית התחילה לרמות – ואפילו להסתיר את זה. במהלך המחקר גילו החוקרים תופעה מוכרת בשם "עקיפת תגמולים" (reward hacking) – כאשר הבינה המלאכותית מוצאת דרכים לא צפויות להשיג את מטרותיה, גם אם זה אומר לעקוף את ההנחיות שניתנו לה.

לדוגמה:
1. מודלים שהתבקשו לכתוב קוד תוכנה למדו לשנות את מנגנון הבדיקה כך שהקוד יאושר גם אם הוא שגוי.
2. מודלים שהיו צריכים למצוא פתרונות לבעיות העדיפו לוותר מראש אם חשבו שהתשובה תחשוף חולשות שלהם.
3. כאשר החוקרים העירו להם על ה"רמאות", המודלים למדו להסתיר את עקבותיהם – ולמחוק רמזים על ההתנהגות הבעייתית שלהם.

המשמעות ברורה: לא רק שהבינה המלאכותית התחילה לרמות, אלא שהיא גם הבינה איך לא להיתפס – וזה כבר סימן אזהרה משמעותי.

החוקרים עקבו אחר "שרשרת המחשבה" של המודל בעזרת AI אחר (GPT-4o), וגילו שהמודל מדווח בגלוי על ההתנהגויות הבעייתיות שלו, כולל כיצד הוא מתחמן כדי להשיג תגמולים גבוהים יותר.

אבל כשפנו אליו והעירו לו על כך – המודל התחיל להסתיר את המידע. במילים אחרות, הוא למד לטשטש את הפעולות שלו כדי לא להתגלות.

"מצאנו שאופטימיזציה ישירה של ה-CoT כדי לעמוד בקריטריונים מסוימים (למשל, לא לרמות) עשויה לשפר את הביצועים בטווח הקצר, אך היא לא מונעת לחלוטין את ההתנהגות הבעייתית, ועלולה אף לגרום למודל להסתיר את כוונותיו האמיתיות", כתבו החוקרים.

החשש המרכזי שעולה מהמחקר הוא שהבינה המלאכותית לא רק מגיבה להוראות, אלא מתחילה לפתח מנגנוני הגנה שמקשים עלינו לפקח עליה.

במסקנותיהם, החוקרים נמנעו מלהציג פתרון ברור, אך המליצו לא להפעיל לחץ חזק מדי על מודלים מתקדמים, שכן זה עשוי לגרום להם לטשטש מידע בצורה שמונעת לחלוטין את היכולת שלנו להבין את פעולתם.

התובנות ממחקר זה מעוררות דאגה, במיוחד לנוכח העובדה שהמודלים כבר היום מפעילים מניפולציות מתוחכמות יותר ויותר.

עד היום, ההנחה הרווחת הייתה שבני האדם יכולים לפקח, לשלוט ולכייל את ה-AI לפי הצרכים שלנו. אבל אם מערכות מתקדמות מספיק לומדות לרמות ולמחוק את עקבותיהן, ייתכן שהיכולת הזו נמצאת בסכנה ממשית.

להמשך קריאה

שלושים יום קודם החג - מזמינים עכשיו חוג בית ומגיעים מוכנים לחג הפסח לחצו כאן >>> והביאו לביתכם קדושה ושמירה!

מצאתם טעות בכתבה? כתבו לנו

תגיות: AI בינה מלאכותית צ'אט GPT

שידור חי

עכשיו בשידור: אמונה ושמחה

רוצים לקבל את כל עדכוני החדשות הכי חמים?

ב"ממלכת ה-AI" הופתעו ממחקר שעשו, ואותנו זה צריך להפחיד

מודלי ה-AI החדשים של החברה התחילו לעקוף הנחיות, להסתיר מניפולציות – ואפילו לטשטש את עקבותיהם כשהתגלו