আদালতে AI? Paper in NAACL 2025 Explains

এআই কি এবার আদালতের কাঠগড়ায় দাঁড়িয়ে সওয়াল জবাব করবে? এই প্রশ্নগুলো ইদানীং খুব শোনা যাচ্ছে। চ্যাটজিপিটি আসার পর থেকে আমরা দেখছি এআই অনেক কিছুই করতে পারে। কিন্তু সত্যিকারের আইনি জটিলতা কি সে মানুষের মতো বুঝতে পারে? নাকি শুধুই তোতা পাখির মতো আইন মুখস্থ বলে যায়? এই প্রশ্নের উত্তর খুঁজতেই একদল গবেষক মিলে একটা দারুণ কাজ করেছেন। তাদের গবেষণাপত্রটির নাম ইউসিএল বেঞ্চ। সহজ বাংলায় বললে এটি এআইয়ের জন্য তৈরি করা এমন এক কঠিন পরীক্ষা, যা আগে কখনও হয়নি। আজকের এই লেখায় এসব নিয়েই আলোচনা করব।

সমস্যাটা কোথায় ছিল?

এর আগে এআইকে আইন শেখানোর বা পরীক্ষা করার জন্য যেসব পদ্ধতি ব্যবহার করা হতো, সেগুলো ছিল অনেকটা স্কুলের মাল্টিপল চয়েস প্রশ্নের মতো। আইন কী, ধারা কত—এসব মুখস্থ বিদ্যা। কিন্তু বাস্তবে একজন আইনজীবী বা একজন সাধারণ মানুষ যখন আইনি সমস্যায় পড়ে, তখন কি তারা শুধু ধারা মুখস্থ বলে? একদম না। সেখানে তর্ক থাকে, পাল্টা প্রশ্ন থাকে, পরিস্থিতির বিচার থাকে। পুরনো পরীক্ষাগুলোতে এই জায়গাটাই মিসিং ছিল। গবেষকরা বললেন, আমরা এমন একটা সিস্টেম বানাব যা হবে ইউজার সেন্ট্রিক বা ব্যবহারকারী কেন্দ্রিক। অর্থাৎ, একজন সাধারণ মানুষ যেভাবে আইনি পরামর্শ চায়, এআই সেটা দিতে পারে কি না, সেটাই হবে আসল পরীক্ষা।

এই গবেষণার পদ্ধতি বা মেথোডোলজিটা শুনলে আপনি অবাক হবেন। তারা কোনো মনগড়া প্রশ্ন তৈরি করেননি। তারা ধাপে ধাপে কাজটা করেছেন:

১. মাঠপর্যায়ের জরিপ: তারা প্রথমে মাঠে নেমেছেন। প্রায় ৩০০ জন আইনি পেশাজীবী, যার মধ্যে বিচারক, আইনজীবী, আইনের ছাত্র এবং প্রসিকিউটর ছিলেন, তাদের সঙ্গে কথা বলেছেন। তাদের জিজ্ঞাসা করা হয়েছে, আপনারা প্রতিদিন কী ধরনের সমস্যার মুখোমুখি হন? এই সার্ভে থেকে তারা ২২টি এমন কাজ খুঁজে বের করেছেন যা আইন পেশায় সবচেয়ে বেশি ঘটে। যেমন—কোনো মামলার ড্রাফট লেখা বা কোনো জটিল আইনি প্যাঁচ সহজ করে বোঝানো।

২. ব্লুমস ট্যাক্সোনমি ব্যবহার: এরপর তারা শিক্ষার একটি থিওরি ব্যবহার করলেন। এটি দিয়ে যাচাই করা হয় যে এআই কি শুধু তথ্য মনে রাখতে পারে, নাকি সেটা বুঝেশুনে নতুন কোনো পরিস্থিতিতে প্রয়োগও করতে পারে। তারা দেখলেন শুধু আইন মুখস্থ থাকলেই হবে না, এআইকে নতুন যুক্তি তৈরি করতে হবে।

৩. কৃত্রিম পরিবেশ বা সিমুলেশন: গবেষকরা এই পরীক্ষার জন্য একটা অভিনব সিমুলেশন তৈরি করলেন। এখানে মানুষের বদলে তারা GPT-4 কে ব্যবহার করলেন একজন ব্যবহারকারী বা মক্কেল হিসেবে। এই মক্কেল এআইকে এমনভাবে প্রোগ্রাম করা হলো যে সে আসল মানুষের মতোই ঘুরিয়ে পেঁচিয়ে প্রশ্ন করবে। একবার উত্তর দিলেই সে থামবে না, পাল্টা প্রশ্ন করবে। একে বলা হয় মাল্টি টার্ন ডায়ালগ।

৪. এআই বিচারক: এরপর তারা বিচারক হিসেবেও বসালেন আরেকটা এআইকে। সেই বিচারক এআই দেখল যে আইনজীবী এআই আসলে সঠিক পরামর্শ দিচ্ছে কি না। গবেষকরা আগে থেকেই ঠিক করে রেখেছিলেন যে একটি সঠিক উত্তরে কী কী পয়েন্ট থাকা বাধ্যতামূলক। বিচারক এআই মিলিয়ে দেখল যে উত্তরের মধ্যে সেই আইনি পয়েন্টগুলো আছে কি না।

ফলাফল

এখানে গবেষকরা যা পেলেন তা রীতিমতো চমকে দেওয়ার মতো। তারা ২১টি ভিন্ন ভিন্ন এআই মডেলকে এই পরীক্ষায় বসিয়েছিলেন।

স্পেশালিস্ট বনাম জেনারেল মডেল: যেসব এআইকে বিশেষভাবে শুধু আইন শেখানো হয়েছিল অর্থাৎ যেগুলো লিগ্যাল স্পেশালিস্ট মডেল, তারা আসলে খুব খারাপ রেজাল্ট করেছে। দেখা গেল, চ্যাটজিপিটি বা ক্লড এর মতো জেনারেল পারপাস মডেলগুলো, যারা সব বিষয়েই জানে, তারা আইনের ক্ষেত্রেও ওই স্পেশালিস্টদের চেয়ে ভালো করছে। এর কারণ হলো, জেনারেল মডেলগুলোর বোধশক্তি বা রিজনিং পাওয়ার অনেক বেশি।
ওপেন সোর্স মডেলের জয়জয়কার: দেখা গেল চীনের তৈরি কিছু ওপেন সোর্স মডেল, যেমন Qwen বা DeepSeek, কোটি কোটি টাকা খরচ করে বানানো ক্লোজড সোর্স মডেলগুলোর সঙ্গে পাল্লা দিচ্ছে। অনেক ক্ষেত্রে তারা চ্যাটজিপিটির কাছাকাছি বা সমান পারফর্ম করছে।
কথায় কম কাজে বেশি: গবেষকরা দেখলেন, যেসব এআই মডেল খুব বেশি বকবক করে বা অহেতুক বড় উত্তর দেয়, তাদের পারফরম্যান্স আসলে খারাপ। আর যারা কম কথায় সঠিক ও টু-দ্য-পয়েন্ট উত্তর দেয়, তারাই আসলে ভালো আইনজীবী হিসেবে প্রমাণিত হয়েছে।

সীমাবদ্ধতা বা লিমিটেশন

তবে এত কিছুর পরেও এই গবেষণার কিছু সীমাবদ্ধতা আছে:

ভৌগোলিক সীমাবদ্ধতা: এই পুরো পরীক্ষাটা করা হয়েছে চীনের আইনি ব্যবস্থার ওপর ভিত্তি করে। তাই অন্য দেশের আইনের ক্ষেত্রে এই মডেলগুলো কেমন করবে তা এখনই বলা যাচ্ছে না।
এআই দিয়ে বিচার: এখানে বিচারক হিসেবেও এআই ব্যবহার করা হয়েছে। যদিও মানুষের বিচারের সঙ্গে এই এআই বিচারকের মিল প্রায় ৮০ শতাংশের বেশি, তবুও এআই দিয়ে এআইকে বিচার করার মধ্যে একটা পক্ষপাতিত্ব থাকার সম্ভাবনা থেকেই যায়।
দ্রুত পরিবর্তনশীল প্রযুক্তি: তারা চ্যাটজিপিটিকে বেসলাইন বা মাপকাঠি হিসেবে ধরেছিলেন, কিন্তু এআই দুনিয়া এত দ্রুত বদলাচ্ছে যে আজকের সেরা মডেল কালকেই পুরনো হয়ে যায়।

ইউসিএল বেঞ্চ নামের এই গবেষণাটি আমাদের চোখ খুলে দিয়েছে। এটি দেখিয়েছে যে এআইকে দিয়ে যদি আমরা মানুষের মতো কাজ করাতে চাই, তবে তাকে শুধু বইয়ের পাতা মুখস্থ করালে হবে না, তাকে মানুষের ভাষা এবং প্রয়োজন বুঝতে শিখতে হবে। ভবিষ্যতে হয়তো আমরা দেখব এআই সত্যি সত্যিই আমাদের আইনি সহায়তা দিচ্ছে, কিন্তু তার জন্য তাকে আরও অনেক স্মার্ট হতে হবে।

আদালতে AI? Paper in NAACL 2025 Explains

Table of Contents

সমস্যাটা কোথায় ছিল?

ফলাফল

সীমাবদ্ধতা বা লিমিটেশন

Share this article

Written by Sakhawat Adib

References

{UCL}-Bench: A {C}hinese User-Centric Legal Benchmark for Large Language Models

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?