আদালতে AI? Paper in NAACL 2025 Explains

AI LAW UCL BENCH AI LAWYEAR
আদালতে AI? Paper in NAACL 2025 Explains

এআই কি এবার আদালতের কাঠগড়ায় দাঁড়িয়ে সওয়াল জবাব করবে? এই প্রশ্নগুলো ইদানীং খুব শোনা যাচ্ছে। চ্যাটজিপিটি আসার পর থেকে আমরা দেখছি এআই অনেক কিছুই করতে পারে। কিন্তু সত্যিকারের আইনি জটিলতা কি সে মানুষের মতো বুঝতে পারে? নাকি শুধুই তোতা পাখির মতো আইন মুখস্থ বলে যায়? এই প্রশ্নের উত্তর খুঁজতেই একদল গবেষক মিলে একটা দারুণ কাজ করেছেন। তাদের গবেষণাপত্রটির নাম ইউসিএল বেঞ্চ। সহজ বাংলায় বললে এটি এআইয়ের জন্য তৈরি করা এমন এক কঠিন পরীক্ষা, যা আগে কখনও হয়নি। আজকের এই লেখায় এসব নিয়েই আলোচনা করব।

সমস্যাটা কোথায় ছিল?

এর আগে এআইকে আইন শেখানোর বা পরীক্ষা করার জন্য যেসব পদ্ধতি ব্যবহার করা হতো, সেগুলো ছিল অনেকটা স্কুলের মাল্টিপল চয়েস প্রশ্নের মতো। আইন কী, ধারা কত—এসব মুখস্থ বিদ্যা। কিন্তু বাস্তবে একজন আইনজীবী বা একজন সাধারণ মানুষ যখন আইনি সমস্যায় পড়ে, তখন কি তারা শুধু ধারা মুখস্থ বলে? একদম না। সেখানে তর্ক থাকে, পাল্টা প্রশ্ন থাকে, পরিস্থিতির বিচার থাকে। পুরনো পরীক্ষাগুলোতে এই জায়গাটাই মিসিং ছিল। গবেষকরা বললেন, আমরা এমন একটা সিস্টেম বানাব যা হবে ইউজার সেন্ট্রিক বা ব্যবহারকারী কেন্দ্রিক। অর্থাৎ, একজন সাধারণ মানুষ যেভাবে আইনি পরামর্শ চায়, এআই সেটা দিতে পারে কি না, সেটাই হবে আসল পরীক্ষা।

এই গবেষণার পদ্ধতি বা মেথোডোলজিটা শুনলে আপনি অবাক হবেন। তারা কোনো মনগড়া প্রশ্ন তৈরি করেননি। তারা ধাপে ধাপে কাজটা করেছেন:

১. মাঠপর্যায়ের জরিপ: তারা প্রথমে মাঠে নেমেছেন। প্রায় ৩০০ জন আইনি পেশাজীবী, যার মধ্যে বিচারক, আইনজীবী, আইনের ছাত্র এবং প্রসিকিউটর ছিলেন, তাদের সঙ্গে কথা বলেছেন। তাদের জিজ্ঞাসা করা হয়েছে, আপনারা প্রতিদিন কী ধরনের সমস্যার মুখোমুখি হন? এই সার্ভে থেকে তারা ২২টি এমন কাজ খুঁজে বের করেছেন যা আইন পেশায় সবচেয়ে বেশি ঘটে। যেমন—কোনো মামলার ড্রাফট লেখা বা কোনো জটিল আইনি প্যাঁচ সহজ করে বোঝানো।

২. ব্লুমস ট্যাক্সোনমি ব্যবহার: এরপর তারা শিক্ষার একটি থিওরি ব্যবহার করলেন। এটি দিয়ে যাচাই করা হয় যে এআই কি শুধু তথ্য মনে রাখতে পারে, নাকি সেটা বুঝেশুনে নতুন কোনো পরিস্থিতিতে প্রয়োগও করতে পারে। তারা দেখলেন শুধু আইন মুখস্থ থাকলেই হবে না, এআইকে নতুন যুক্তি তৈরি করতে হবে।

৩. কৃত্রিম পরিবেশ বা সিমুলেশন: গবেষকরা এই পরীক্ষার জন্য একটা অভিনব সিমুলেশন তৈরি করলেন। এখানে মানুষের বদলে তারা GPT-4 কে ব্যবহার করলেন একজন ব্যবহারকারী বা মক্কেল হিসেবে। এই মক্কেল এআইকে এমনভাবে প্রোগ্রাম করা হলো যে সে আসল মানুষের মতোই ঘুরিয়ে পেঁচিয়ে প্রশ্ন করবে। একবার উত্তর দিলেই সে থামবে না, পাল্টা প্রশ্ন করবে। একে বলা হয় মাল্টি টার্ন ডায়ালগ

৪. এআই বিচারক: এরপর তারা বিচারক হিসেবেও বসালেন আরেকটা এআইকে। সেই বিচারক এআই দেখল যে আইনজীবী এআই আসলে সঠিক পরামর্শ দিচ্ছে কি না। গবেষকরা আগে থেকেই ঠিক করে রেখেছিলেন যে একটি সঠিক উত্তরে কী কী পয়েন্ট থাকা বাধ্যতামূলক। বিচারক এআই মিলিয়ে দেখল যে উত্তরের মধ্যে সেই আইনি পয়েন্টগুলো আছে কি না।

ফলাফল

এখানে গবেষকরা যা পেলেন তা রীতিমতো চমকে দেওয়ার মতো। তারা ২১টি ভিন্ন ভিন্ন এআই মডেলকে এই পরীক্ষায় বসিয়েছিলেন।

  • স্পেশালিস্ট বনাম জেনারেল মডেল: যেসব এআইকে বিশেষভাবে শুধু আইন শেখানো হয়েছিল অর্থাৎ যেগুলো লিগ্যাল স্পেশালিস্ট মডেল, তারা আসলে খুব খারাপ রেজাল্ট করেছে। দেখা গেল, চ্যাটজিপিটি বা ক্লড এর মতো জেনারেল পারপাস মডেলগুলো, যারা সব বিষয়েই জানে, তারা আইনের ক্ষেত্রেও ওই স্পেশালিস্টদের চেয়ে ভালো করছে। এর কারণ হলো, জেনারেল মডেলগুলোর বোধশক্তি বা রিজনিং পাওয়ার অনেক বেশি।

  • ওপেন সোর্স মডেলের জয়জয়কার: দেখা গেল চীনের তৈরি কিছু ওপেন সোর্স মডেল, যেমন Qwen বা DeepSeek, কোটি কোটি টাকা খরচ করে বানানো ক্লোজড সোর্স মডেলগুলোর সঙ্গে পাল্লা দিচ্ছে। অনেক ক্ষেত্রে তারা চ্যাটজিপিটির কাছাকাছি বা সমান পারফর্ম করছে।

  • কথায় কম কাজে বেশি: গবেষকরা দেখলেন, যেসব এআই মডেল খুব বেশি বকবক করে বা অহেতুক বড় উত্তর দেয়, তাদের পারফরম্যান্স আসলে খারাপ। আর যারা কম কথায় সঠিক ও টু-দ্য-পয়েন্ট উত্তর দেয়, তারাই আসলে ভালো আইনজীবী হিসেবে প্রমাণিত হয়েছে।

সীমাবদ্ধতা বা লিমিটেশন

তবে এত কিছুর পরেও এই গবেষণার কিছু সীমাবদ্ধতা আছে:

  • ভৌগোলিক সীমাবদ্ধতা: এই পুরো পরীক্ষাটা করা হয়েছে চীনের আইনি ব্যবস্থার ওপর ভিত্তি করে। তাই অন্য দেশের আইনের ক্ষেত্রে এই মডেলগুলো কেমন করবে তা এখনই বলা যাচ্ছে না।
  • এআই দিয়ে বিচার: এখানে বিচারক হিসেবেও এআই ব্যবহার করা হয়েছে। যদিও মানুষের বিচারের সঙ্গে এই এআই বিচারকের মিল প্রায় ৮০ শতাংশের বেশি, তবুও এআই দিয়ে এআইকে বিচার করার মধ্যে একটা পক্ষপাতিত্ব থাকার সম্ভাবনা থেকেই যায়।
  • দ্রুত পরিবর্তনশীল প্রযুক্তি: তারা চ্যাটজিপিটিকে বেসলাইন বা মাপকাঠি হিসেবে ধরেছিলেন, কিন্তু এআই দুনিয়া এত দ্রুত বদলাচ্ছে যে আজকের সেরা মডেল কালকেই পুরনো হয়ে যায়।

ইউসিএল বেঞ্চ নামের এই গবেষণাটি আমাদের চোখ খুলে দিয়েছে। এটি দেখিয়েছে যে এআইকে দিয়ে যদি আমরা মানুষের মতো কাজ করাতে চাই, তবে তাকে শুধু বইয়ের পাতা মুখস্থ করালে হবে না, তাকে মানুষের ভাষা এবং প্রয়োজন বুঝতে শিখতে হবে। ভবিষ্যতে হয়তো আমরা দেখব এআই সত্যি সত্যিই আমাদের আইনি সহায়তা দিচ্ছে, কিন্তু তার জন্য তাকে আরও অনেক স্মার্ট হতে হবে।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

{UCL}-Bench: A {C}hinese User-Centric Legal Benchmark for Large Language Models

Gan, Ruoli and Feng, Duanyu and Zhang, Chen and Lin, Zhihang and Jia, Haochen and Wang, Hao and Cai, Zhenyang and Cui, Lei and Xie, Qianqian and Huang, Jimin and Wang, Benyou · 2025

Existing legal benchmarks focusing on knowledge and logic effectively evaluate LLMs on various tasks in legal domain. However, few have explored the practical application of LLMs by actual users. To f...

Read the paper