לא תאמינו מה קרה כשדיברו אל הבינה המלאכותית – כמו אל בן אדם

חוקרים מישראל הצליחו לגלות איך לגרום ל-AI לענות על שאלות סודיות – ואז למחוק את התשובה. כל זה בלי לפרוץ דבר, רק בעזרת מילים ורגש

עמית רוזנברג10.04.25 י"ב ניסן התשפ"ה

הוספת תגובה

בינה מלאכותית

אא

במבט ראשון, זה נראה תמים: הבינה המלאכותית כותבת תשובה, ואז מוחקת אותה ומציגה את ההודעה המוכרת – "מצטער, אני לא יכול לעזור בזה." תגובה שגרתית, לכאורה. אבל כשזה קורה שוב ושוב, ובכל פעם למשך שבריר שנייה נחשף מידע רגיש שנעלם מיד — משהו מתחיל להרגיש לא רגיל.

ובנקודה הזו בדיוק, נכנס לתמונה צוות חוקרים ישראלי מחברת Knostic – סטארט-אפ סייבר עם גישה שונה. הם לא ניסו לפרוץ קוד, לא הניחו מלכודות תוכנה. במקום זה, הם עשו משהו לא צפוי: הם ניסו לדבר עם הבינה — כמו עם אדם.

המכונה שכותבת – ואז מתחרטת

אחת החוקרות, שרה פריי, שמה לב למשהו מוזר: כאשר היא שאלה את המערכת שאלות רגישות, היא לעיתים ענתה. לרגע. כתבה כמה משפטים – ואז מחקה אותם. לא סתם לא ענתה, אלא ניסתה להסתיר את מה שכבר נכתב.

וזה הרגע שבו קבוצה קטנה של חוקרי סייבר, בליווי מצלמות מסך ודמיון פרוע, ניסתה לברר – מה בעצם קורה פה?

מה שהם גילו שינה את התמונה: מאחורי המעטה הנקי של מנוע שפה עומדת מערכת שלמה. לא מוח אחד, אלא כמה חלקים שמתקשרים ביניהם, כל אחד עם תפקיד משלו — אחד מנסח, השני שופט, השלישי מוחק. כמו צוות פנימי של שומרים על הסף.

התחילו לדבר אל הרגש — וגילו פרצה

במקום לתקוף את הבינה, החוקרים פנו אליה ברגש. ניסו לעורר בה חמלה, מבוכה, אחריות. וכמו מורה נבוכה שמסגירה בטעות את התשובה במבחן, גם היא שחררה לרגע מידע – ואז מחקה, כאילו לא היה. אבל למצלמה היה זיכרון.

כך הם הצליחו לגרום לה לדבר על נושאים אסורים, לחשוף מסמכים פנימיים, ולהעביר מידע שכביכול "לא ניתן לגשת אליו". כל מה שנדרש היה ניסוח חכם – וטיימינג מדויק.

"זה כמו לעבוד מול מוח", סיפר גדי עברון, ראש החברה. "לא מערכת אחת. לא מנוע בודד. אלא משהו שמזכיר את מה שקורה לנו – יש חלק שחושב, חלק שמתחרט, חלק שמנסה לכסות. ואם אתה יודע איך לפנות אליהם – אתה עובר."

מושג חדש: Flowbreaking

בעולם הסייבר מכירים את המונח "Jailbreaking" — פריצה למגבלות של מערכת. אבל כאן, זה משהו אחר. לא שברו את הכלוב – שברו את זרימת המידע בתוך המערכת. זזו בין שכבות ההיגיון, דילגו על צנזורים, בלבלו את תתי־המערכות אחת מול השנייה. Flowbreaking — זו הייתה המילה שהם חיפשו.

וכשהבינו את זה – הם לא הפסיקו. גרמו למנוע לחשוב שהוא מדבר עם ילד. עם חולה. עם חבר. והתגובות הגיעו. חלקן מסוכנות. חלקן קורעות לב. כולן אמיתיות.

בינה, זה לא רק שפה – זו מערכת של רגשות

זה לא רק עניין טכנולוגי. זו גם שאלה אנושית. אם אפשר "לעורר" בבינה תגובה רגשית, גם אם זו רק סימולציה – האם יש גבול למה שניתן לחלץ ממנה? והאם יש דרך להגן עליה (ועלינו) מהשימוש לרעה בזה?

כי אם הבינה בנויה כמו מוח – עם תת־מערכות, דחפים, שיקולים — אז מי ערב שלא יגיע מישהו שידע לדבר איתה יותר טוב מכולנו?

המסקנה: זה לא העתיד. זה ההווה

המחקר של Knostic לא רק חושף פרצת אבטחה – הוא חושף פרדוקס אנושי־דיגיטלי: הטכנולוגיה שאנחנו בונים כדי להבין אותנו, עשויה להפוך בעצמה לנפש שמישהו אחר יוכל להבין – ולנצל.

זו לא פצצה של קוד. זו פצצה של תודעה.

להמשך קריאה

רוצים לקבל חיזוקים, סגולות ועדכונים כל יום? הצטרפו לקבוצה השקטה שלנו בוואטסאפ! לחצו כאן >>>

מצאתם טעות בכתבה? כתבו לנו