Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

প্রতিদিন একটি গবেষণাপত্র, আজ তৃতীয় দিন। দুইদিন AI safety নিয়ে দেখার পর হটাৎ মনে হল, জিপিটি যে জোক বলে, সেইটা কি সে নিজে বুঝে? নাকি ঐ হাসির ইমোজিই শেষ? তো জিনিসটা নিয়ে কেউ কাজ করেছে কিনা খুজতে গিয়ে এই পেপারটা পেলাম৷ ২০২৩ এ ACL এর অন্যতম সেরা গবেষণাপত্রের পুরষ্কার পেয়েছিল পেপারটা। তো যাইহোক আসল কথায় ফিরে যাই,

কম্পিউটার কি আসলেই জোকস বোঝে? নাকি পুরোটাই অভিনয়?

চ্যাটজিপিটির মতো এ-আই কথা বলতে পারে, ছবি আঁকতে পারে, কোড লিখতে পারে। কিন্তু একটা প্রশ্ন থেকেই যায়, এই এআই কি মানুষের মতো করে কৌতুক বা হিউমার জিনিসটা বোঝে? একটা জোকস শুনে সে কি আমাদের মতো 'মজা' পায়?

এই জটিল প্রশ্নটার উত্তর খুঁজতেই গবেষকরা দারুণ একটা কাজ করেছেন। তারা সোজা চলে গেছেন আমেরিকার বিখ্যাত "নিউ ইয়র্কার" ম্যাগাজিনের কাছে। এই ম্যাগাজিনটি তাদের কার্টুনের জন্য পৃথিবী বিখ্যাত। কিন্তু তাদের কার্টুনের মজাটা খুব একটা সরল না, বরং খুব গভীর আর প্যাঁচানো। অনেক সময় ছবির সাথে ক্যাপশনের কোনো মিলই থাকে না, পুরোটাই একটা অদ্ভুত পরিস্থিতি তৈরি করে, যা আমাদের হাসায়। এই ধরনের হিউমার বুঝতে হলে শুধু ভাষা জানলে চলে না, সমাজের রীতিনীতি, সংস্কৃতি আর জীবনের নানা ঝুট-ঝামেলা বোঝার ক্ষমতা থাকতে হয়।

গবেষকরা ঠিক এই কঠিন পরীক্ষাটিই এআইকে দিয়ে করিয়েছেন। তারা এআই এর রসবোধ বোঝার ক্ষমতাকে ধাপে ধাপে চ্যালেঞ্জ করেছেন।

প্রথম ধাপে, এআইকে একটা কার্টুন ছবি দেখানো হয়েছে। সাথে দেওয়া হয়েছে পাঁচটি ভিন্ন ভিন্ন ক্যাপশন। এআইকে বলতে হয়েছে, এর মধ্যে কোনটা আসল ক্যাপশন, যেটা কার্টুনিস্ট ভেবেছিলেন। এটা হলো বেসিক ম্যাচিং টেস্ট।

দ্বিতীয় ধাপে, কাজটা আরও কঠিন করা হলো। একটা কার্টুনের সাথে এবার দুটো ক্যাপশন দেওয়া হলো। একটা হলো সেই কার্টুনের জন্য সাধারন জনগনের ভোটে বিজয়ী ক্যাপশন৷ অন্যটা ছিল একটা একেবারেই সাধারণ মানের ক্যাপশন। এআইকে বলা হলো, এই দুইটার মধ্যে কোনটা বেশি ভালো বা বেশি মজার, সেটা বেছে বের করো। এটা হলো হিউমারের 'মান' বোঝার পরীক্ষা।

তৃতীয় এবং সবচেয়ে কঠিন ধাপে, এআইকে একটা কার্টুন আর সেটার বিজয়ী ক্যাপশনটা দিয়ে বলা হলো, আচ্ছা, এবার বুঝিয়ে বলো তো, এই ক্যাপশনটা এই ছবির সাথে কেন এত মজার? কী এমন আছে এতে যে মানুষ হাসছে? এটা হলো জোকস 'ব্যাখ্যা' করার পরীক্ষা, যা করতে হলে রসবোধের একেবারে গভীরে ঢুকতে হয়।

মজার ব্যাপার হলো, গবেষকরা এই পরীক্ষাগুলো দুইভাবে নিয়েছেন। একবার তারা এআই মডেলকে সরাসরি কার্টুনের ছবিটিই দেখিয়েছেন। আরেকবার তারা এআই এর কাজটা একটু সহজ করে দিয়েছেন। তারা নিজেরা মানুষ দিয়ে কার্টুনের ছবিটা কেমন, তাতে কী কী অদ্ভুত জিনিস আছে, তার একটা বিস্তারিত লিখিত বর্ণনা তৈরি করেছেন। যেমন, "একটা লোক স্যুটেড-বুটেড হয়ে অফিসে বসে আছে, কিন্তু তার টেবিলে কম্পিউটারের জায়গায় একটা আস্ত ভেড়া দাঁড়িয়ে আছে।"

এই বর্ণনাটা তারা জিপিটি-৪ এর মতো শক্তিশালী ল্যাঙ্গুয়েজ মডেলকে দিয়ে তারপর ক্যাপশনটা দিয়েছেন। এর উদ্দেশ্য ছিল এটা দেখা যে, ছবি বোঝার কষ্টটা যদি আমরা বাদও দিই, শুধু লেখা পড়েই কি এআই জোকসের মজাটা ধরতে পারে?

ফলাফল যা এসেছে তা খুবই পরিষ্কার। রসবোধের এই পরীক্ষায় এআই মানুষের চেয়ে হাজার হাজার মাইল পিছিয়ে আছে।

দেখা গেছে, প্রথম ধাপে যেখানে মানুষ ৯৪ শতাংশ ক্ষেত্রেই সঠিক ক্যাপশনটা খুঁজে বের করতে পেরেছে, সেখানে সেরা এআই মডেলগুলো সফল হয়েছে মাত্র ৬২ শতাংশ ক্ষেত্রে।

কিন্তু সবচেয়ে অবাক করা ফলাফল এসেছে শেষ ধাপে। যখন এআইকে কার্টুনের পুরো বর্ণনা হাতে-কলমে লিখে দেওয়া হলো, তারপরেও জোকস ব্যাখ্যা করার ক্ষেত্রে জিপিটি-৪ মানুষের কাছে পাত্তাই পায়নি। ৬৮ শতাংশ ক্ষেত্রেই মানুষ, এআই এর লেখা ব্যাখ্যার চেয়ে মানুষের করা ব্যাখ্যাকেই বেশি ভালো, যৌক্তিক এবং মজার বলে উল্লেখ করেছে।

এই গবেষণাটা একটা জিনিস খুব পরিষ্কার করে। এআই হয়তো শব্দ চেনে, বাক্য গঠন করতে পারে, তথ্য সাজিয়ে দিতে পারে। কিন্তু মানুষের রসবোধের পেছনে যে বিশাল সাংস্কৃতিক জ্ঞান, অভিজ্ঞতা, আর অসংগতি বোঝার ক্ষমতা কাজ করে, সেই 'বোঝা' নামক জিনিসটা কম্পিউটারের এখনও হয়নি। সে হয়তো বলতে পারে কোনটা 'ফানি' বলে ডেটাবেজে লেখা আছে, কিন্তু সে নিজে সেই মজাটা 'অনুভব' করতে পারে না。

যারা শেষ পর্যন্ত পড়েছেন। আপনারাও চাইলে চ্যালেঞ্জটায় অংশ নিতে পারেন। ব্যস্ততার জন্য দিনে একটা না পারেন সপ্তাহে একটা পড়লেন। সেইটা নিয়েই নাহয় লিখলেন।

Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

Table of Contents

Share this article

Written by Sakhawat Adib

References

Do Androids Laugh at Electric Sheep? Humor ``Understanding'' Benchmarks from The New Yorker Caption Contest

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?