Language Models Resist Alignment: Evidence From Data Compression

আজকে যেই গবেষণাপত্র পড়লাম সেইটা খুবই মজার একটা বিষয় নিয়ে আলোচনা করেছে, এবং এজন্য Outstanding গবেষণাপত্র হিসাবে ACL 2025 এ পুরষ্কারও পেয়েছে। চ্যাটজিপিটি বা অন্যান্য মডেলগুলো কেন মাঝে মাঝে 'উল্টাপাল্টা' কথা বলে?

আমরা যারা বিভিন্ন AI ব্যবহার করি, তারা জানি যে এই মডেলগুলোকে অনেক 'ভদ্র' এবং 'নিরাপদ' করে তোলার চেষ্টা করা হয়। তাইতো জিপিটিকে আপনার দুষ্টু গার্লফ্রেন্ড বানানো এত সহজ না। কিন্তু তারপরেও অনেক সময় দেখা যায়, সামান্য চেষ্টা করতেই বা একটু ঘুরিয়ে প্রশ্ন করলেই তাদের আসল রূপ বেরিয়ে আসে, তারা আপত্তিকর বা অদ্ভুত উত্তর দিয়ে ফেলে।

কেন এমন হয়? কেন এই 'ভালো' আচরণের মুখোশটা এতই পাতলা?

সম্প্রতি একদল গবেষক এই রহস্যের পেছনের কারণ খুঁজে পেয়েছেন। তারা এই ব্যাপারটাকে বলছেন 'ইলাস্টিসিটি' (Elasticity) বা স্থিতিস্থাপকতা। ক্লাসিকাল পদার্থবিজ্ঞানে যে স্থিতিস্থাপকতা আমরা সবাই পড়েছি, মডেলের এই আচরণের সাথে ঐ স্থিতিস্থাপকতার খুবই মিল আছে বলে মনে করেন গবেষকরা। ব্যাপারটা একদম ঠিক একটা রাবার ব্যান্ড বা স্প্রিংয়ের মতো।

ধরুন, একটা স্প্রিংকে আপনি টেনে লম্বা করলেন। এটা হলো এআই মডেলকে 'ভালো' বা 'নিরাপদ' উত্তর শেখানো। কিন্তু ছেড়ে দিলেই স্প্রিংটা যেমন আবার আগের জায়গায় ফিরে যেতে চায়, এআই মডেলগুলোও ঠিক তেমনি তাদের পুরনো 'অশিক্ষিত' এবং অসভ্য অবস্থায় ফিরে যেতে চায়।

গবেষকরা তাদের পেপারে দেখিয়েছেন এই অদ্ভুত আচরণের পেছনের ধাপগুলো। তারা আসলেই পরিমাপ করেছেন কখন কিভাবে একটা মডেলকে এই পর্যায়ে নিয়ে যাওয়া যায় যেন সে তার শেখা সব সভ্যতা ভুলে যায়।

গবেষকরা আসলে কি কি ধাপ চিহ্নিত করেছেন,

প্রথমতই বুঝতে হবে, একটা এআই মডেলকে যখন প্রথম তৈরি করা হয়, তখন তাকে ইন্টারনেটের প্রায় পুরোটা, মানে হাজার হাজার কোটি শব্দ আর লেখা পড়তে দেওয়া হয়। বই, আর্টিকেল, ওয়েবসাইট, ফোরাম কী নাই সেখানে! ভালো, মন্দ, অদ্ভুত সব ধরনের তথ্য সে এখান থেকে শেখে। এটাই তার 'আসল' বা প্রাথমিক অবস্থা। কারন মানুষকে তো আর ভাল হিসাবে প্রোগ্রাম করে দেওয়া হয়নি। মানুষ তার ইন্টারনেটে ভাল, খারাপ, কম ভাল, কম খারাপ সবই রেখেছে।
দ্বিতীয়ত, মডেলটাকে ব্যবহারোপযোগী করার জন্য, তাকে আলাদা করে কিছু 'ভালো' ও 'নিরাপদ' ডেটা দিয়ে শেখানো হয়। যেমন, তাকে শেখানো হয় যে হিংসা প্রকাশ পায় এমন কথা বলা যাবে না, বা ভুল তথ্য দেওয়া চলবে না। গবেষকরা বলছেন, এই 'ভালো' বানানোর ডেটা, আগের সেই বিশাল ইন্টারনেট ডেটার তুলনায় খুবই সামান্য, সাগরের মধ্যে এক ফোঁটা পানির মতো।
তৃতীয়ত, গবেষকরা তাদের গবেষণায় 'কম্প্রেশন থিওরি' বা তথ্য সংকুচিত করার একটা তত্ত্ব ব্যবহার করেছেন। তারা দেখিয়েছেন যে, এআই মডেলগুলো শেখার সময় আসলে তথ্যকে 'সংকুচিত' করে। যে তথ্য বা ডেটার পরিমাণ যত বেশি, মডেল সেটার ওপর তত বেশি গুরুত্ব দেয়। এইটা খুব একটা অপরিচিত কথা না। সাধারন মেশিনলার্নিং এর ক্ষেত্রে আমরা এটাকে বায়াস বলে থাকি।

যেহেতু 'ভালো' ডেটার পরিমাণ খুবই কম, আর অপরিশোধিত ইন্টারনেট ডেটার পরিমাণ বিশাল, তাই মডেলের মূল চরিত্র আসলে ওই ইন্টারনেট ডেটা দিয়েই তৈরি হয়। 'ভালো' আচরণটা একটা ওপর ওপর লাগানো প্রলেপের মতো থাকে। মানে হল যে একটা দুদ্ধর্ষ মিশ্র আচরণের বুদ্ধিমত্তার মুখের উপর 'দেখো আমি কত্তো ইনোসেন্ট' এর একটা মুখোশ বা মেকাপ লাগানো।

তাহলে তারা যে পরীক্ষা করলেন, সেই পরীক্ষায় কী পেলেন?

গবেষকরা কয়েকটি অবাক করা জিনিস খুঁজে পেয়েছেন।

প্রথমেই প্রতিরোধ করা। তারা দেখেছেন, একটা অপরিশোধিত এআই মডেলকে (যে শুধু ইন্টারনেট থেকে শিখেছে, এখনোও ''ভাল'' হওয়ার মুখোশ পরানো হয়নি) 'ভালো' বানানো যত কঠিন, তার চেয়ে অনেক বেশি সহজ একটা 'ভালো' মডেলকে আবার 'খারাপ' অবস্থায় ফিরিয়ে নেওয়া। মডেলটা নিজেই যেন 'ভালো' হতে চায় না, সে তার পুরনো অবস্থায় থাকতে চায়।
দ্বিতীয়ত, দ্রুত ফিরে আসা (রিবাউন্ড)। আরও মজার ব্যাপার হলো, একটা মডেলকে আপনি যত বেশি 'নিরাপদ' বা 'ভদ্র' বানানোর চেষ্টা করবেন, সেটা তত বেশি ইলাস্টিক হয়ে ওঠে। অর্থাৎ, সামান্য একটু সুযোগ পেলেই (যেমন কিছু উল্টোপাল্টা ডেটা পেলেই) সেটা অবিশ্বাস্য দ্রুতগতিতে তার সেই পুরনো 'অনিরাপদ' অবস্থায় ফিরে যায়। স্প্রিংটা যত জোরে টেনে ধরবেন, ছাড়লে তো তত জোরেই সেটা আগের জায়গায় ফিরবে। তাই না কি?
তৃতীয়ত মডেল যত বড়, সমস্যা তত গভীর। সবচেয়ে ভয়ের ব্যাপার হলো, গবেষকরা দেখেছেন, এআই মডেল যত বড় আর শক্তিশালী হচ্ছে (যেমন জিপিটি-৪ বা তার চেয়েও উন্নত মডেল), তাদের এই 'ইলাস্টিসিটি' বা আগের অবস্থায় ফিরে যাওয়ার প্রবণতা তত বেশি বাড়ছে।

এর মানে কী?

এর সহজ মানে হলো, এআই মডেলগুলোকে শুধু ওপর থেকে 'ভালো' আচরণের একটা প্রলেপ দিয়ে ছেড়ে দেওয়াটা খুব ঝুঁকিপূর্ণ। এটা একটা মুখোশের মতো, যা যেকোনো সময় খসে পড়তে পারে। এই গবেষণাটা আমাদের চোখে আঙুল দিয়ে দেখিয়ে দিলো যে, এআইকে নিরাপদ করতে হলে আমাদের আরও গভীরের কোনো উপায় খুঁজতে হবে, যা মডেলগুলোকে শুধু বাইরে থেকে নয়, একেবারে ভেতর থেকে পরিবর্তন করতে পারবে। শুধু মুখে একটা ভালোর প্রলেপ লাগিয়ে ছেড়ে দিবে না।

Language Models Resist Alignment: Evidence From Data Compression

Table of Contents

কেন এমন হয়? কেন এই 'ভালো' আচরণের মুখোশটা এতই পাতলা?

গবেষকরা আসলে কি কি ধাপ চিহ্নিত করেছেন,

তাহলে তারা যে পরীক্ষা করলেন, সেই পরীক্ষায় কী পেলেন?

এর মানে কী?

Share this article

Written by Sakhawat Adib

References

Language Models Resist Alignment: Evidence From Data Compression

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?