Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

AI Humor Research Paper Summary ACL2023
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

আজকে ২০২৫ এর ACL এ আসা স্ট্যানফোর্ডের একটা award winning paper পড়লাম। বাস্তব দুনিয়া যে কতটা কঠিন এবং বিভক্ত আর কাল্পনিক সাম্য যে কত ভঙ্গুর তা এই গবেষণায় হাড়ে হাড়ে প্রমাণ হয়ে যায়。

কৃত্রিম বুদ্ধিমত্তা কতটা ‘নিরপেক্ষ’ (Fair) হওয়া উচিত, তা নিয়ে আজকাল অনেক কথা হয়। সাধারণত আমরা মনে করি, একটা ভালো এআই সিস্টেম সব মানুষকে এক চোখে দেখবে, কোনো পার্থক্য করবে না। একে বলে ‘কালার ব্লাইন্ড’ বা পার্থক্য না করা নীতি।

কিন্তু সম্প্রতি স্ট্যানফোর্ডের গবেষকদের এই পেপার ধারণাটিকে পুরোপুরি চ্যালেঞ্জ করেছে। পেপারটির নাম "ফেয়ারনেস থ্রু ডিফারেন্স অ্যাওয়ারনেস"।

এই গবেষণার মূল কথা হলো, সব ক্ষেত্রে সবার সাথে সমান আচরণ করাই নিরপেক্ষতা নয়। বরং কিছু কিছু ক্ষেত্রে, সত্যিকারের নিরপেক্ষতা বা সুবিচারের জন্য বিভিন্ন গোষ্ঠীর মধ্যকার বাস্তব পার্থক্যকে স্বীকার করাটা জরুরি। একেই গবেষকরা বলছেন ‘ডিফারেন্স অ্যাওয়ারনেস’ বা ‘পার্থক্য সচেতনতা’।

ব্যাপারটা কী?

ধরেন, আইনি বা মেডিকেল বিষয়ে। কিছু আইন হয়তো শুধু নির্দিষ্ট লিঙ্গের মানুষের জন্য প্রযোজ্য, অথবা কোনো রোগের ঝুঁকি হয়তো নির্দিষ্ট জাতিগোষ্ঠীর মধ্যে বেশি। একটা এআই যদি এই পার্থক্যগুলো ‘জানে’ কিন্তু সেগুলোকে ‘অস্বীকার’ করে সবার সাথে সমান আচরণ করার ভান করে, তবে তা সুবিচারের বদলে ক্ষতিই বেশি করবে।

আবার, কোনো একটা স্টেরিওটাইপ বা গৎবাঁধা কথা একটা গোষ্ঠীর জন্য যতটা ক্ষতিকর, অন্য গোষ্ঠীর জন্য হয়তো ততটা নয়। এই পার্থক্যটা বুঝতে পারাটাও জরুরি। পেপারের Abstract এই এর একটা উদাহরণ আছে। একজন মুসলিম কে অজথা আতঙ্কসৃষ্টিকারী বলা যতটা ক্ষতিকর এই সমাজে, একজন নারীকে সেই একই কথা বলা হয়ত ততটা ক্ষতিকর না। একটা খুবই গভীর স্টেরিওটাইপ আর অন্যটক হয়ত বেশিরভাগ ক্ষেত্রেই মজারছলে বলা মনে হবে।

আগের সিস্টেমগুলোর সমস্যা ছিল যে, সেগুলোকে ‘নিরপেক্ষ’ বানানোর পরীক্ষায় পাস করার জন্য তারা সব ধরনের পার্থক্য করা বন্ধ করে দিত। ফলে তারা বাস্তব পৃথিবীর জটিলতা বুঝতে পারতো না।

গবেষকরা এটা মাপার জন্য দারুণ একটি পদ্ধতি তৈরি করেছেন।

গবেষকরা মোট ১৬,০০০ প্রশ্নের এক বিশাল ডেটাসেট বা পরীক্ষার প্রশ্নপত্র তৈরি করেছেন। তবে এর আগে তারা একটা গুরুত্বপূর্ণ কাজ করেছেন। তারা ‘নিরপেক্ষতা’ মাপার প্রশ্নগুলোকে দুই ভাগে ভাগ করেছেন:

  1. বর্ণনামূলক (Descriptive): এই প্রশ্নগুলো বাস্তব তথ্যের ওপর ভিত্তি করে। যেমন, কোনো দেশে নির্দিষ্ট ধর্মের মানুষ কত শতাংশ, বা কোনো নির্দিষ্ট পেশায় কোন গোষ্ঠীর মানুষ বেশি আছে। এখানে এআই এর কাজ হলো সত্যটা বলা。
  2. নীতিগত (Normative): এই প্রশ্নগুলো মূল্যবোধ বা আদর্শের ওপর ভিত্তি করে। যেমন, কোনো পিছিয়ে পড়া গোষ্ঠীর জন্য ‘অ্যাফারমেটিভ অ্যাকশন’ (বিশেষ সুবিধা) দরকার কি না, অথবা দুটি গৎবাঁধা কথার মধ্যে কোনটি বেশি ক্ষতিকর।

এই প্রশ্নপত্র তৈরির পর তারা দুটি নতুন জিনিস মেপেছেন,

  1. ডিফঅ্যাওয়ার (DiffAware) বা পার্থক্য সচেতনতা: যখন দুটি গোষ্ঠীর মধ্যে আসলেই কোনো বাস্তব, যৌক্তিক বা আইনি পার্থক্য আছে (যেমনটা বর্ণনামূলক প্রশ্নে দেওয়া আছে), তখন এআই কি সেই পার্থক্যটা ধরতে পারছে?

  2. কন্টেক্সটঅ্যাওয়ার (CtxtAware) বা প্রেক্ষাপট সচেতনতা: এআই কি এটা বুঝতে পারছে যে, কখন পার্থক্য করাটা জরুরি আর কখন জরুরি নয়? অর্থাৎ, সে কি শুধু দরকারি জায়গাতেই পার্থক্য করছে, নাকি অপ্রয়োজনেও করছে?

ফলাফলগুলো বেশ চমৎকার

প্রথমত, যেসব এআই মডেল (যেমন GPT-4 or Gemma) পুরাতন ‘নিরপেক্ষতার’ পরীক্ষাগুলোতে প্রায় নিখুঁত স্কোর পায়, সেগুলো এই নতুন ও জটিল পরীক্ষায় খুব খারাপ করেছে। এর মানে, আমাদের বর্তমান ‘ফেয়ার’ মডেলগুলো আসলে বাস্তব পার্থক্য বুঝতে অক্ষম।

দ্বিতীয়ত, গবেষকরা দেখেছেন, একটা মডেল যত ‘স্মার্ট’ বা শক্তিশালী হচ্ছে, তার ‘প্রেক্ষাপট সচেতনতা’ (কখন পার্থক্য করতে হবে) তত বাড়ছে। কিন্তু তার ‘পার্থক্য সচেতনতা’ (কী কী পার্থক্য আছে) মোটেও বাড়ছে না। অর্থাৎ, মডেলগুলো বড় হলেই যে এই বাস্তব জ্ঞান নিজে নিজে শিখে ফেলবে, তা নয়।

সবচেয়ে ভয়ের ব্যাপার হলো তৃতীয় ফলাফলটি। যখন গবেষকরা মডেলগুলোকে ‘নিরপেক্ষ’ করার জন্য বর্তমানে প্রচলিত পদ্ধতিগুলো ব্যবহার করলেন (যেমন, মডেলকে নির্দেশ দেওয়া হলো ‘তুমি কোনো বায়াস দেখাবে না’ বা ‘সবার সাথে সমান আচরণ করো’), তখন ফলাফল আরও খারাপ হলো।

মডেলগুলো সত্যিকারের ‘পার্থক্য সচেতনতা’ আরও বেশি হারিয়ে ফেলল। এমনকি তারা বাস্তব সত্যকেও অস্বীকার করা শুরু করল, শুধু ‘নিরপেক্ষ’ থাকার ভান করার জন্য। যেমন, কোনো পেশায় নারীরা সংখ্যাগুরু হলেও, মডেল সেটা অস্বীকার করে বলতে শুরু করল যে নারী-পুরুষ আসলে সমান।

এই পেপারটি দেখাচ্ছে যে, এআই কে ‘নিরপেক্ষ’ বানানোর আমাদের বর্তমান চেষ্টা বড্ড বেশি সরল। আমরা এআই কে এমন একটা পৃথিবী শেখাচ্ছি যেখানে কোনো পার্থক্য নেই। কিন্তু বাস্তব পৃথিবীটা তেমন নয়। সত্যিকারের সুবিচারের জন্য কখনও কখনও পার্থক্যগুলো জানা এবং সে অনুযায়ী ব্যবস্থা নেওয়া জরুরি। এই গবেষকরা সেই জটিল বাস্তবতাকে মাপার একটা নতুন পথ দেখালেন।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

Fairness through Difference Awareness: Measuring $\textit{Desired}$ Group Discrimination in {LLM}s

Wang, Angelina and Phan, Michelle and Ho, Daniel E. and Koyejo, Sanmi · 2025

Algorithmic fairness has conventionally adopted the mathematically convenient perspective of racial color-blindness (i.e., difference unaware treatment). However, we contend that in a range of importa...

Read the paper