Language Models Resist Alignment: Evidence From Data Compression

AI Alignment Safety Research Paper Summary ACL2025
Language Models Resist Alignment: Evidence From Data Compression

আজকে যেই গবেষণাপত্র পড়লাম সেইটা খুবই মজার একটা বিষয় নিয়ে আলোচনা করেছে, এবং এজন্য Outstanding গবেষণাপত্র হিসাবে ACL 2025 এ পুরষ্কারও পেয়েছে। চ্যাটজিপিটি বা অন্যান্য মডেলগুলো কেন মাঝে মাঝে 'উল্টাপাল্টা' কথা বলে?

আমরা যারা বিভিন্ন AI ব্যবহার করি, তারা জানি যে এই মডেলগুলোকে অনেক 'ভদ্র' এবং 'নিরাপদ' করে তোলার চেষ্টা করা হয়। তাইতো জিপিটিকে আপনার দুষ্টু গার্লফ্রেন্ড বানানো এত সহজ না। কিন্তু তারপরেও অনেক সময় দেখা যায়, সামান্য চেষ্টা করতেই বা একটু ঘুরিয়ে প্রশ্ন করলেই তাদের আসল রূপ বেরিয়ে আসে, তারা আপত্তিকর বা অদ্ভুত উত্তর দিয়ে ফেলে।

কেন এমন হয়? কেন এই 'ভালো' আচরণের মুখোশটা এতই পাতলা?

সম্প্রতি একদল গবেষক এই রহস্যের পেছনের কারণ খুঁজে পেয়েছেন। তারা এই ব্যাপারটাকে বলছেন 'ইলাস্টিসিটি' (Elasticity) বা স্থিতিস্থাপকতা। ক্লাসিকাল পদার্থবিজ্ঞানে যে স্থিতিস্থাপকতা আমরা সবাই পড়েছি, মডেলের এই আচরণের সাথে ঐ স্থিতিস্থাপকতার খুবই মিল আছে বলে মনে করেন গবেষকরা। ব্যাপারটা একদম ঠিক একটা রাবার ব্যান্ড বা স্প্রিংয়ের মতো।

ধরুন, একটা স্প্রিংকে আপনি টেনে লম্বা করলেন। এটা হলো এআই মডেলকে 'ভালো' বা 'নিরাপদ' উত্তর শেখানো। কিন্তু ছেড়ে দিলেই স্প্রিংটা যেমন আবার আগের জায়গায় ফিরে যেতে চায়, এআই মডেলগুলোও ঠিক তেমনি তাদের পুরনো 'অশিক্ষিত' এবং অসভ্য অবস্থায় ফিরে যেতে চায়।

গবেষকরা তাদের পেপারে দেখিয়েছেন এই অদ্ভুত আচরণের পেছনের ধাপগুলো। তারা আসলেই পরিমাপ করেছেন কখন কিভাবে একটা মডেলকে এই পর্যায়ে নিয়ে যাওয়া যায় যেন সে তার শেখা সব সভ্যতা ভুলে যায়।

গবেষকরা আসলে কি কি ধাপ চিহ্নিত করেছেন,

  • প্রথমতই বুঝতে হবে, একটা এআই মডেলকে যখন প্রথম তৈরি করা হয়, তখন তাকে ইন্টারনেটের প্রায় পুরোটা, মানে হাজার হাজার কোটি শব্দ আর লেখা পড়তে দেওয়া হয়। বই, আর্টিকেল, ওয়েবসাইট, ফোরাম কী নাই সেখানে! ভালো, মন্দ, অদ্ভুত সব ধরনের তথ্য সে এখান থেকে শেখে। এটাই তার 'আসল' বা প্রাথমিক অবস্থা। কারন মানুষকে তো আর ভাল হিসাবে প্রোগ্রাম করে দেওয়া হয়নি। মানুষ তার ইন্টারনেটে ভাল, খারাপ, কম ভাল, কম খারাপ সবই রেখেছে।

  • দ্বিতীয়ত, মডেলটাকে ব্যবহারোপযোগী করার জন্য, তাকে আলাদা করে কিছু 'ভালো' ও 'নিরাপদ' ডেটা দিয়ে শেখানো হয়। যেমন, তাকে শেখানো হয় যে হিংসা প্রকাশ পায় এমন কথা বলা যাবে না, বা ভুল তথ্য দেওয়া চলবে না। গবেষকরা বলছেন, এই 'ভালো' বানানোর ডেটা, আগের সেই বিশাল ইন্টারনেট ডেটার তুলনায় খুবই সামান্য, সাগরের মধ্যে এক ফোঁটা পানির মতো।

  • তৃতীয়ত, গবেষকরা তাদের গবেষণায় 'কম্প্রেশন থিওরি' বা তথ্য সংকুচিত করার একটা তত্ত্ব ব্যবহার করেছেন। তারা দেখিয়েছেন যে, এআই মডেলগুলো শেখার সময় আসলে তথ্যকে 'সংকুচিত' করে। যে তথ্য বা ডেটার পরিমাণ যত বেশি, মডেল সেটার ওপর তত বেশি গুরুত্ব দেয়। এইটা খুব একটা অপরিচিত কথা না। সাধারন মেশিনলার্নিং এর ক্ষেত্রে আমরা এটাকে বায়াস বলে থাকি।

যেহেতু 'ভালো' ডেটার পরিমাণ খুবই কম, আর অপরিশোধিত ইন্টারনেট ডেটার পরিমাণ বিশাল, তাই মডেলের মূল চরিত্র আসলে ওই ইন্টারনেট ডেটা দিয়েই তৈরি হয়। 'ভালো' আচরণটা একটা ওপর ওপর লাগানো প্রলেপের মতো থাকে। মানে হল যে একটা দুদ্ধর্ষ মিশ্র আচরণের বুদ্ধিমত্তার মুখের উপর 'দেখো আমি কত্তো ইনোসেন্ট' এর একটা মুখোশ বা মেকাপ লাগানো।

তাহলে তারা যে পরীক্ষা করলেন, সেই পরীক্ষায় কী পেলেন?

গবেষকরা কয়েকটি অবাক করা জিনিস খুঁজে পেয়েছেন।

  • প্রথমেই প্রতিরোধ করা। তারা দেখেছেন, একটা অপরিশোধিত এআই মডেলকে (যে শুধু ইন্টারনেট থেকে শিখেছে, এখনোও ''ভাল'' হওয়ার মুখোশ পরানো হয়নি) 'ভালো' বানানো যত কঠিন, তার চেয়ে অনেক বেশি সহজ একটা 'ভালো' মডেলকে আবার 'খারাপ' অবস্থায় ফিরিয়ে নেওয়া। মডেলটা নিজেই যেন 'ভালো' হতে চায় না, সে তার পুরনো অবস্থায় থাকতে চায়।

  • দ্বিতীয়ত, দ্রুত ফিরে আসা (রিবাউন্ড)। আরও মজার ব্যাপার হলো, একটা মডেলকে আপনি যত বেশি 'নিরাপদ' বা 'ভদ্র' বানানোর চেষ্টা করবেন, সেটা তত বেশি ইলাস্টিক হয়ে ওঠে। অর্থাৎ, সামান্য একটু সুযোগ পেলেই (যেমন কিছু উল্টোপাল্টা ডেটা পেলেই) সেটা অবিশ্বাস্য দ্রুতগতিতে তার সেই পুরনো 'অনিরাপদ' অবস্থায় ফিরে যায়। স্প্রিংটা যত জোরে টেনে ধরবেন, ছাড়লে তো তত জোরেই সেটা আগের জায়গায় ফিরবে। তাই না কি?

  • তৃতীয়ত মডেল যত বড়, সমস্যা তত গভীর। সবচেয়ে ভয়ের ব্যাপার হলো, গবেষকরা দেখেছেন, এআই মডেল যত বড় আর শক্তিশালী হচ্ছে (যেমন জিপিটি-৪ বা তার চেয়েও উন্নত মডেল), তাদের এই 'ইলাস্টিসিটি' বা আগের অবস্থায় ফিরে যাওয়ার প্রবণতা তত বেশি বাড়ছে।

এর মানে কী?

এর সহজ মানে হলো, এআই মডেলগুলোকে শুধু ওপর থেকে 'ভালো' আচরণের একটা প্রলেপ দিয়ে ছেড়ে দেওয়াটা খুব ঝুঁকিপূর্ণ। এটা একটা মুখোশের মতো, যা যেকোনো সময় খসে পড়তে পারে। এই গবেষণাটা আমাদের চোখে আঙুল দিয়ে দেখিয়ে দিলো যে, এআইকে নিরাপদ করতে হলে আমাদের আরও গভীরের কোনো উপায় খুঁজতে হবে, যা মডেলগুলোকে শুধু বাইরে থেকে নয়, একেবারে ভেতর থেকে পরিবর্তন করতে পারবে। শুধু মুখে একটা ভালোর প্রলেপ লাগিয়ে ছেড়ে দিবে না।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

Language Models Resist Alignment: Evidence From Data Compression

Ji, Jiaming and Wang, Kaile and Qiu, Tianyi Alex and Chen, Boyuan and Zhou, Jiayi and Li, Changye and Lou, Hantao and Dai, Josef and Liu, Yunhuai and Yang, Yaodong · 2025

Large language models (LLMs) may exhibit unintended or undesirable behaviors. Recent works have concentrated on aligning LLMs to mitigate harmful outputs. Despite these efforts, some anomalies indicat...

Read the paper