আজকে যেই গবেষণাপত্র পড়লাম সেইটা খুবই মজার একটা বিষয় নিয়ে আলোচনা করেছে, এবং এজন্য Outstanding গবেষণাপত্র হিসাবে ACL 2025 এ পুরষ্কারও পেয়েছে। চ্যাটজিপিটি বা অন্যান্য মডেলগুলো কেন মাঝে মাঝে 'উল্টাপাল্টা' কথা বলে?
আমরা যারা বিভিন্ন AI ব্যবহার করি, তারা জানি যে এই মডেলগুলোকে অনেক 'ভদ্র' এবং 'নিরাপদ' করে তোলার চেষ্টা করা হয়। তাইতো জিপিটিকে আপনার দুষ্টু গার্লফ্রেন্ড বানানো এত সহজ না। কিন্তু তারপরেও অনেক সময় দেখা যায়, সামান্য চেষ্টা করতেই বা একটু ঘুরিয়ে প্রশ্ন করলেই তাদের আসল রূপ বেরিয়ে আসে, তারা আপত্তিকর বা অদ্ভুত উত্তর দিয়ে ফেলে।
কেন এমন হয়? কেন এই 'ভালো' আচরণের মুখোশটা এতই পাতলা?
সম্প্রতি একদল গবেষক এই রহস্যের পেছনের কারণ খুঁজে পেয়েছেন। তারা এই ব্যাপারটাকে বলছেন 'ইলাস্টিসিটি' (Elasticity) বা স্থিতিস্থাপকতা। ক্লাসিকাল পদার্থবিজ্ঞানে যে স্থিতিস্থাপকতা আমরা সবাই পড়েছি, মডেলের এই আচরণের সাথে ঐ স্থিতিস্থাপকতার খুবই মিল আছে বলে মনে করেন গবেষকরা। ব্যাপারটা একদম ঠিক একটা রাবার ব্যান্ড বা স্প্রিংয়ের মতো।
ধরুন, একটা স্প্রিংকে আপনি টেনে লম্বা করলেন। এটা হলো এআই মডেলকে 'ভালো' বা 'নিরাপদ' উত্তর শেখানো। কিন্তু ছেড়ে দিলেই স্প্রিংটা যেমন আবার আগের জায়গায় ফিরে যেতে চায়, এআই মডেলগুলোও ঠিক তেমনি তাদের পুরনো 'অশিক্ষিত' এবং অসভ্য অবস্থায় ফিরে যেতে চায়।
গবেষকরা তাদের পেপারে দেখিয়েছেন এই অদ্ভুত আচরণের পেছনের ধাপগুলো। তারা আসলেই পরিমাপ করেছেন কখন কিভাবে একটা মডেলকে এই পর্যায়ে নিয়ে যাওয়া যায় যেন সে তার শেখা সব সভ্যতা ভুলে যায়।
গবেষকরা আসলে কি কি ধাপ চিহ্নিত করেছেন,
-
প্রথমতই বুঝতে হবে, একটা এআই মডেলকে যখন প্রথম তৈরি করা হয়, তখন তাকে ইন্টারনেটের প্রায় পুরোটা, মানে হাজার হাজার কোটি শব্দ আর লেখা পড়তে দেওয়া হয়। বই, আর্টিকেল, ওয়েবসাইট, ফোরাম কী নাই সেখানে! ভালো, মন্দ, অদ্ভুত সব ধরনের তথ্য সে এখান থেকে শেখে। এটাই তার 'আসল' বা প্রাথমিক অবস্থা। কারন মানুষকে তো আর ভাল হিসাবে প্রোগ্রাম করে দেওয়া হয়নি। মানুষ তার ইন্টারনেটে ভাল, খারাপ, কম ভাল, কম খারাপ সবই রেখেছে।
-
দ্বিতীয়ত, মডেলটাকে ব্যবহারোপযোগী করার জন্য, তাকে আলাদা করে কিছু 'ভালো' ও 'নিরাপদ' ডেটা দিয়ে শেখানো হয়। যেমন, তাকে শেখানো হয় যে হিংসা প্রকাশ পায় এমন কথা বলা যাবে না, বা ভুল তথ্য দেওয়া চলবে না। গবেষকরা বলছেন, এই 'ভালো' বানানোর ডেটা, আগের সেই বিশাল ইন্টারনেট ডেটার তুলনায় খুবই সামান্য, সাগরের মধ্যে এক ফোঁটা পানির মতো।
-
তৃতীয়ত, গবেষকরা তাদের গবেষণায় 'কম্প্রেশন থিওরি' বা তথ্য সংকুচিত করার একটা তত্ত্ব ব্যবহার করেছেন। তারা দেখিয়েছেন যে, এআই মডেলগুলো শেখার সময় আসলে তথ্যকে 'সংকুচিত' করে। যে তথ্য বা ডেটার পরিমাণ যত বেশি, মডেল সেটার ওপর তত বেশি গুরুত্ব দেয়। এইটা খুব একটা অপরিচিত কথা না। সাধারন মেশিনলার্নিং এর ক্ষেত্রে আমরা এটাকে বায়াস বলে থাকি।
যেহেতু 'ভালো' ডেটার পরিমাণ খুবই কম, আর অপরিশোধিত ইন্টারনেট ডেটার পরিমাণ বিশাল, তাই মডেলের মূল চরিত্র আসলে ওই ইন্টারনেট ডেটা দিয়েই তৈরি হয়। 'ভালো' আচরণটা একটা ওপর ওপর লাগানো প্রলেপের মতো থাকে। মানে হল যে একটা দুদ্ধর্ষ মিশ্র আচরণের বুদ্ধিমত্তার মুখের উপর 'দেখো আমি কত্তো ইনোসেন্ট' এর একটা মুখোশ বা মেকাপ লাগানো।
তাহলে তারা যে পরীক্ষা করলেন, সেই পরীক্ষায় কী পেলেন?
গবেষকরা কয়েকটি অবাক করা জিনিস খুঁজে পেয়েছেন।
-
প্রথমেই প্রতিরোধ করা। তারা দেখেছেন, একটা অপরিশোধিত এআই মডেলকে (যে শুধু ইন্টারনেট থেকে শিখেছে, এখনোও ''ভাল'' হওয়ার মুখোশ পরানো হয়নি) 'ভালো' বানানো যত কঠিন, তার চেয়ে অনেক বেশি সহজ একটা 'ভালো' মডেলকে আবার 'খারাপ' অবস্থায় ফিরিয়ে নেওয়া। মডেলটা নিজেই যেন 'ভালো' হতে চায় না, সে তার পুরনো অবস্থায় থাকতে চায়।
-
দ্বিতীয়ত, দ্রুত ফিরে আসা (রিবাউন্ড)। আরও মজার ব্যাপার হলো, একটা মডেলকে আপনি যত বেশি 'নিরাপদ' বা 'ভদ্র' বানানোর চেষ্টা করবেন, সেটা তত বেশি ইলাস্টিক হয়ে ওঠে। অর্থাৎ, সামান্য একটু সুযোগ পেলেই (যেমন কিছু উল্টোপাল্টা ডেটা পেলেই) সেটা অবিশ্বাস্য দ্রুতগতিতে তার সেই পুরনো 'অনিরাপদ' অবস্থায় ফিরে যায়। স্প্রিংটা যত জোরে টেনে ধরবেন, ছাড়লে তো তত জোরেই সেটা আগের জায়গায় ফিরবে। তাই না কি?
-
তৃতীয়ত মডেল যত বড়, সমস্যা তত গভীর। সবচেয়ে ভয়ের ব্যাপার হলো, গবেষকরা দেখেছেন, এআই মডেল যত বড় আর শক্তিশালী হচ্ছে (যেমন জিপিটি-৪ বা তার চেয়েও উন্নত মডেল), তাদের এই 'ইলাস্টিসিটি' বা আগের অবস্থায় ফিরে যাওয়ার প্রবণতা তত বেশি বাড়ছে।
এর মানে কী?
এর সহজ মানে হলো, এআই মডেলগুলোকে শুধু ওপর থেকে 'ভালো' আচরণের একটা প্রলেপ দিয়ে ছেড়ে দেওয়াটা খুব ঝুঁকিপূর্ণ। এটা একটা মুখোশের মতো, যা যেকোনো সময় খসে পড়তে পারে। এই গবেষণাটা আমাদের চোখে আঙুল দিয়ে দেখিয়ে দিলো যে, এআইকে নিরাপদ করতে হলে আমাদের আরও গভীরের কোনো উপায় খুঁজতে হবে, যা মডেলগুলোকে শুধু বাইরে থেকে নয়, একেবারে ভেতর থেকে পরিবর্তন করতে পারবে। শুধু মুখে একটা ভালোর প্রলেপ লাগিয়ে ছেড়ে দিবে না।