Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

AI Humor Research Paper Summary ACL2023
Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

প্রতিদিন একটি গবেষণাপত্র, আজ তৃতীয় দিন। দুইদিন AI safety নিয়ে দেখার পর হটাৎ মনে হল, জিপিটি যে জোক বলে, সেইটা কি সে নিজে বুঝে? নাকি ঐ হাসির ইমোজিই শেষ? তো জিনিসটা নিয়ে কেউ কাজ করেছে কিনা খুজতে গিয়ে এই পেপারটা পেলাম৷ ২০২৩ এ ACL এর অন্যতম সেরা গবেষণাপত্রের পুরষ্কার পেয়েছিল পেপারটা। তো যাইহোক আসল কথায় ফিরে যাই,

কম্পিউটার কি আসলেই জোকস বোঝে? নাকি পুরোটাই অভিনয়?

চ্যাটজিপিটির মতো এ-আই কথা বলতে পারে, ছবি আঁকতে পারে, কোড লিখতে পারে। কিন্তু একটা প্রশ্ন থেকেই যায়, এই এআই কি মানুষের মতো করে কৌতুক বা হিউমার জিনিসটা বোঝে? একটা জোকস শুনে সে কি আমাদের মতো 'মজা' পায়?

এই জটিল প্রশ্নটার উত্তর খুঁজতেই গবেষকরা দারুণ একটা কাজ করেছেন। তারা সোজা চলে গেছেন আমেরিকার বিখ্যাত "নিউ ইয়র্কার" ম্যাগাজিনের কাছে। এই ম্যাগাজিনটি তাদের কার্টুনের জন্য পৃথিবী বিখ্যাত। কিন্তু তাদের কার্টুনের মজাটা খুব একটা সরল না, বরং খুব গভীর আর প্যাঁচানো। অনেক সময় ছবির সাথে ক্যাপশনের কোনো মিলই থাকে না, পুরোটাই একটা অদ্ভুত পরিস্থিতি তৈরি করে, যা আমাদের হাসায়। এই ধরনের হিউমার বুঝতে হলে শুধু ভাষা জানলে চলে না, সমাজের রীতিনীতি, সংস্কৃতি আর জীবনের নানা ঝুট-ঝামেলা বোঝার ক্ষমতা থাকতে হয়।

গবেষকরা ঠিক এই কঠিন পরীক্ষাটিই এআইকে দিয়ে করিয়েছেন। তারা এআই এর রসবোধ বোঝার ক্ষমতাকে ধাপে ধাপে চ্যালেঞ্জ করেছেন।

প্রথম ধাপে, এআইকে একটা কার্টুন ছবি দেখানো হয়েছে। সাথে দেওয়া হয়েছে পাঁচটি ভিন্ন ভিন্ন ক্যাপশন। এআইকে বলতে হয়েছে, এর মধ্যে কোনটা আসল ক্যাপশন, যেটা কার্টুনিস্ট ভেবেছিলেন। এটা হলো বেসিক ম্যাচিং টেস্ট।

দ্বিতীয় ধাপে, কাজটা আরও কঠিন করা হলো। একটা কার্টুনের সাথে এবার দুটো ক্যাপশন দেওয়া হলো। একটা হলো সেই কার্টুনের জন্য সাধারন জনগনের ভোটে বিজয়ী ক্যাপশন৷ অন্যটা ছিল একটা একেবারেই সাধারণ মানের ক্যাপশন। এআইকে বলা হলো, এই দুইটার মধ্যে কোনটা বেশি ভালো বা বেশি মজার, সেটা বেছে বের করো। এটা হলো হিউমারের 'মান' বোঝার পরীক্ষা।

তৃতীয় এবং সবচেয়ে কঠিন ধাপে, এআইকে একটা কার্টুন আর সেটার বিজয়ী ক্যাপশনটা দিয়ে বলা হলো, আচ্ছা, এবার বুঝিয়ে বলো তো, এই ক্যাপশনটা এই ছবির সাথে কেন এত মজার? কী এমন আছে এতে যে মানুষ হাসছে? এটা হলো জোকস 'ব্যাখ্যা' করার পরীক্ষা, যা করতে হলে রসবোধের একেবারে গভীরে ঢুকতে হয়।

মজার ব্যাপার হলো, গবেষকরা এই পরীক্ষাগুলো দুইভাবে নিয়েছেন। একবার তারা এআই মডেলকে সরাসরি কার্টুনের ছবিটিই দেখিয়েছেন। আরেকবার তারা এআই এর কাজটা একটু সহজ করে দিয়েছেন। তারা নিজেরা মানুষ দিয়ে কার্টুনের ছবিটা কেমন, তাতে কী কী অদ্ভুত জিনিস আছে, তার একটা বিস্তারিত লিখিত বর্ণনা তৈরি করেছেন। যেমন, "একটা লোক স্যুটেড-বুটেড হয়ে অফিসে বসে আছে, কিন্তু তার টেবিলে কম্পিউটারের জায়গায় একটা আস্ত ভেড়া দাঁড়িয়ে আছে।"

এই বর্ণনাটা তারা জিপিটি-৪ এর মতো শক্তিশালী ল্যাঙ্গুয়েজ মডেলকে দিয়ে তারপর ক্যাপশনটা দিয়েছেন। এর উদ্দেশ্য ছিল এটা দেখা যে, ছবি বোঝার কষ্টটা যদি আমরা বাদও দিই, শুধু লেখা পড়েই কি এআই জোকসের মজাটা ধরতে পারে?

ফলাফল যা এসেছে তা খুবই পরিষ্কার। রসবোধের এই পরীক্ষায় এআই মানুষের চেয়ে হাজার হাজার মাইল পিছিয়ে আছে।

দেখা গেছে, প্রথম ধাপে যেখানে মানুষ ৯৪ শতাংশ ক্ষেত্রেই সঠিক ক্যাপশনটা খুঁজে বের করতে পেরেছে, সেখানে সেরা এআই মডেলগুলো সফল হয়েছে মাত্র ৬২ শতাংশ ক্ষেত্রে।

কিন্তু সবচেয়ে অবাক করা ফলাফল এসেছে শেষ ধাপে। যখন এআইকে কার্টুনের পুরো বর্ণনা হাতে-কলমে লিখে দেওয়া হলো, তারপরেও জোকস ব্যাখ্যা করার ক্ষেত্রে জিপিটি-৪ মানুষের কাছে পাত্তাই পায়নি। ৬৮ শতাংশ ক্ষেত্রেই মানুষ, এআই এর লেখা ব্যাখ্যার চেয়ে মানুষের করা ব্যাখ্যাকেই বেশি ভালো, যৌক্তিক এবং মজার বলে উল্লেখ করেছে।

এই গবেষণাটা একটা জিনিস খুব পরিষ্কার করে। এআই হয়তো শব্দ চেনে, বাক্য গঠন করতে পারে, তথ্য সাজিয়ে দিতে পারে। কিন্তু মানুষের রসবোধের পেছনে যে বিশাল সাংস্কৃতিক জ্ঞান, অভিজ্ঞতা, আর অসংগতি বোঝার ক্ষমতা কাজ করে, সেই 'বোঝা' নামক জিনিসটা কম্পিউটারের এখনও হয়নি। সে হয়তো বলতে পারে কোনটা 'ফানি' বলে ডেটাবেজে লেখা আছে, কিন্তু সে নিজে সেই মজাটা 'অনুভব' করতে পারে না。

  • যারা শেষ পর্যন্ত পড়েছেন। আপনারাও চাইলে চ্যালেঞ্জটায় অংশ নিতে পারেন। ব্যস্ততার জন্য দিনে একটা না পারেন সপ্তাহে একটা পড়লেন। সেইটা নিয়েই নাহয় লিখলেন।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

Do Androids Laugh at Electric Sheep? Humor ``Understanding'' Benchmarks from The New Yorker Caption Contest

Hessel, Jack and Marasovic, Ana and Hwang, Jena D. and Lee, Lillian and Da, Jeff and Zellers, Rowan and Mankoff, Robert and Choi, Yejin · 2023

Large neural networks can now generate jokes, but do they really ``understand'' humor? We challenge AI models with three tasks derived from the New Yorker Cartoon Caption Contest: matching a joke to a...

Read the paper