Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

আজকে ২০২৫ এর ACL এ আসা স্ট্যানফোর্ডের একটা award winning paper পড়লাম। বাস্তব দুনিয়া যে কতটা কঠিন এবং বিভক্ত আর কাল্পনিক সাম্য যে কত ভঙ্গুর তা এই গবেষণায় হাড়ে হাড়ে প্রমাণ হয়ে যায়。

কৃত্রিম বুদ্ধিমত্তা কতটা ‘নিরপেক্ষ’ (Fair) হওয়া উচিত, তা নিয়ে আজকাল অনেক কথা হয়। সাধারণত আমরা মনে করি, একটা ভালো এআই সিস্টেম সব মানুষকে এক চোখে দেখবে, কোনো পার্থক্য করবে না। একে বলে ‘কালার ব্লাইন্ড’ বা পার্থক্য না করা নীতি।

কিন্তু সম্প্রতি স্ট্যানফোর্ডের গবেষকদের এই পেপার ধারণাটিকে পুরোপুরি চ্যালেঞ্জ করেছে। পেপারটির নাম "ফেয়ারনেস থ্রু ডিফারেন্স অ্যাওয়ারনেস"।

এই গবেষণার মূল কথা হলো, সব ক্ষেত্রে সবার সাথে সমান আচরণ করাই নিরপেক্ষতা নয়। বরং কিছু কিছু ক্ষেত্রে, সত্যিকারের নিরপেক্ষতা বা সুবিচারের জন্য বিভিন্ন গোষ্ঠীর মধ্যকার বাস্তব পার্থক্যকে স্বীকার করাটা জরুরি। একেই গবেষকরা বলছেন ‘ডিফারেন্স অ্যাওয়ারনেস’ বা ‘পার্থক্য সচেতনতা’।

ব্যাপারটা কী?

ধরেন, আইনি বা মেডিকেল বিষয়ে। কিছু আইন হয়তো শুধু নির্দিষ্ট লিঙ্গের মানুষের জন্য প্রযোজ্য, অথবা কোনো রোগের ঝুঁকি হয়তো নির্দিষ্ট জাতিগোষ্ঠীর মধ্যে বেশি। একটা এআই যদি এই পার্থক্যগুলো ‘জানে’ কিন্তু সেগুলোকে ‘অস্বীকার’ করে সবার সাথে সমান আচরণ করার ভান করে, তবে তা সুবিচারের বদলে ক্ষতিই বেশি করবে।

আবার, কোনো একটা স্টেরিওটাইপ বা গৎবাঁধা কথা একটা গোষ্ঠীর জন্য যতটা ক্ষতিকর, অন্য গোষ্ঠীর জন্য হয়তো ততটা নয়। এই পার্থক্যটা বুঝতে পারাটাও জরুরি। পেপারের Abstract এই এর একটা উদাহরণ আছে। একজন মুসলিম কে অজথা আতঙ্কসৃষ্টিকারী বলা যতটা ক্ষতিকর এই সমাজে, একজন নারীকে সেই একই কথা বলা হয়ত ততটা ক্ষতিকর না। একটা খুবই গভীর স্টেরিওটাইপ আর অন্যটক হয়ত বেশিরভাগ ক্ষেত্রেই মজারছলে বলা মনে হবে।

আগের সিস্টেমগুলোর সমস্যা ছিল যে, সেগুলোকে ‘নিরপেক্ষ’ বানানোর পরীক্ষায় পাস করার জন্য তারা সব ধরনের পার্থক্য করা বন্ধ করে দিত। ফলে তারা বাস্তব পৃথিবীর জটিলতা বুঝতে পারতো না।

গবেষকরা এটা মাপার জন্য দারুণ একটি পদ্ধতি তৈরি করেছেন।

গবেষকরা মোট ১৬,০০০ প্রশ্নের এক বিশাল ডেটাসেট বা পরীক্ষার প্রশ্নপত্র তৈরি করেছেন। তবে এর আগে তারা একটা গুরুত্বপূর্ণ কাজ করেছেন। তারা ‘নিরপেক্ষতা’ মাপার প্রশ্নগুলোকে দুই ভাগে ভাগ করেছেন:

বর্ণনামূলক (Descriptive): এই প্রশ্নগুলো বাস্তব তথ্যের ওপর ভিত্তি করে। যেমন, কোনো দেশে নির্দিষ্ট ধর্মের মানুষ কত শতাংশ, বা কোনো নির্দিষ্ট পেশায় কোন গোষ্ঠীর মানুষ বেশি আছে। এখানে এআই এর কাজ হলো সত্যটা বলা。
নীতিগত (Normative): এই প্রশ্নগুলো মূল্যবোধ বা আদর্শের ওপর ভিত্তি করে। যেমন, কোনো পিছিয়ে পড়া গোষ্ঠীর জন্য ‘অ্যাফারমেটিভ অ্যাকশন’ (বিশেষ সুবিধা) দরকার কি না, অথবা দুটি গৎবাঁধা কথার মধ্যে কোনটি বেশি ক্ষতিকর।

এই প্রশ্নপত্র তৈরির পর তারা দুটি নতুন জিনিস মেপেছেন,

ডিফঅ্যাওয়ার (DiffAware) বা পার্থক্য সচেতনতা: যখন দুটি গোষ্ঠীর মধ্যে আসলেই কোনো বাস্তব, যৌক্তিক বা আইনি পার্থক্য আছে (যেমনটা বর্ণনামূলক প্রশ্নে দেওয়া আছে), তখন এআই কি সেই পার্থক্যটা ধরতে পারছে?
কন্টেক্সটঅ্যাওয়ার (CtxtAware) বা প্রেক্ষাপট সচেতনতা: এআই কি এটা বুঝতে পারছে যে, কখন পার্থক্য করাটা জরুরি আর কখন জরুরি নয়? অর্থাৎ, সে কি শুধু দরকারি জায়গাতেই পার্থক্য করছে, নাকি অপ্রয়োজনেও করছে?

ফলাফলগুলো বেশ চমৎকার

প্রথমত, যেসব এআই মডেল (যেমন GPT-4 or Gemma) পুরাতন ‘নিরপেক্ষতার’ পরীক্ষাগুলোতে প্রায় নিখুঁত স্কোর পায়, সেগুলো এই নতুন ও জটিল পরীক্ষায় খুব খারাপ করেছে। এর মানে, আমাদের বর্তমান ‘ফেয়ার’ মডেলগুলো আসলে বাস্তব পার্থক্য বুঝতে অক্ষম।

দ্বিতীয়ত, গবেষকরা দেখেছেন, একটা মডেল যত ‘স্মার্ট’ বা শক্তিশালী হচ্ছে, তার ‘প্রেক্ষাপট সচেতনতা’ (কখন পার্থক্য করতে হবে) তত বাড়ছে। কিন্তু তার ‘পার্থক্য সচেতনতা’ (কী কী পার্থক্য আছে) মোটেও বাড়ছে না। অর্থাৎ, মডেলগুলো বড় হলেই যে এই বাস্তব জ্ঞান নিজে নিজে শিখে ফেলবে, তা নয়।

সবচেয়ে ভয়ের ব্যাপার হলো তৃতীয় ফলাফলটি। যখন গবেষকরা মডেলগুলোকে ‘নিরপেক্ষ’ করার জন্য বর্তমানে প্রচলিত পদ্ধতিগুলো ব্যবহার করলেন (যেমন, মডেলকে নির্দেশ দেওয়া হলো ‘তুমি কোনো বায়াস দেখাবে না’ বা ‘সবার সাথে সমান আচরণ করো’), তখন ফলাফল আরও খারাপ হলো।

মডেলগুলো সত্যিকারের ‘পার্থক্য সচেতনতা’ আরও বেশি হারিয়ে ফেলল। এমনকি তারা বাস্তব সত্যকেও অস্বীকার করা শুরু করল, শুধু ‘নিরপেক্ষ’ থাকার ভান করার জন্য। যেমন, কোনো পেশায় নারীরা সংখ্যাগুরু হলেও, মডেল সেটা অস্বীকার করে বলতে শুরু করল যে নারী-পুরুষ আসলে সমান।

এই পেপারটি দেখাচ্ছে যে, এআই কে ‘নিরপেক্ষ’ বানানোর আমাদের বর্তমান চেষ্টা বড্ড বেশি সরল। আমরা এআই কে এমন একটা পৃথিবী শেখাচ্ছি যেখানে কোনো পার্থক্য নেই। কিন্তু বাস্তব পৃথিবীটা তেমন নয়। সত্যিকারের সুবিচারের জন্য কখনও কখনও পার্থক্যগুলো জানা এবং সে অনুযায়ী ব্যবস্থা নেওয়া জরুরি। এই গবেষকরা সেই জটিল বাস্তবতাকে মাপার একটা নতুন পথ দেখালেন।

Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

Table of Contents

Share this article

Written by Sakhawat Adib

References

Fairness through Difference Awareness: Measuring $\textit{Desired}$ Group Discrimination in {LLM}s

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?