প্রতিদিন একটি গবেষণাপত্র, আজ তৃতীয় দিন। দুইদিন AI safety নিয়ে দেখার পর হটাৎ মনে হল, জিপিটি যে জোক বলে, সেইটা কি সে নিজে বুঝে? নাকি ঐ হাসির ইমোজিই শেষ? তো জিনিসটা নিয়ে কেউ কাজ করেছে কিনা খুজতে গিয়ে এই পেপারটা পেলাম৷ ২০২৩ এ ACL এর অন্যতম সেরা গবেষণাপত্রের পুরষ্কার পেয়েছিল পেপারটা। তো যাইহোক আসল কথায় ফিরে যাই,
কম্পিউটার কি আসলেই জোকস বোঝে? নাকি পুরোটাই অভিনয়?
চ্যাটজিপিটির মতো এ-আই কথা বলতে পারে, ছবি আঁকতে পারে, কোড লিখতে পারে। কিন্তু একটা প্রশ্ন থেকেই যায়, এই এআই কি মানুষের মতো করে কৌতুক বা হিউমার জিনিসটা বোঝে? একটা জোকস শুনে সে কি আমাদের মতো 'মজা' পায়?
এই জটিল প্রশ্নটার উত্তর খুঁজতেই গবেষকরা দারুণ একটা কাজ করেছেন। তারা সোজা চলে গেছেন আমেরিকার বিখ্যাত "নিউ ইয়র্কার" ম্যাগাজিনের কাছে। এই ম্যাগাজিনটি তাদের কার্টুনের জন্য পৃথিবী বিখ্যাত। কিন্তু তাদের কার্টুনের মজাটা খুব একটা সরল না, বরং খুব গভীর আর প্যাঁচানো। অনেক সময় ছবির সাথে ক্যাপশনের কোনো মিলই থাকে না, পুরোটাই একটা অদ্ভুত পরিস্থিতি তৈরি করে, যা আমাদের হাসায়। এই ধরনের হিউমার বুঝতে হলে শুধু ভাষা জানলে চলে না, সমাজের রীতিনীতি, সংস্কৃতি আর জীবনের নানা ঝুট-ঝামেলা বোঝার ক্ষমতা থাকতে হয়।
গবেষকরা ঠিক এই কঠিন পরীক্ষাটিই এআইকে দিয়ে করিয়েছেন। তারা এআই এর রসবোধ বোঝার ক্ষমতাকে ধাপে ধাপে চ্যালেঞ্জ করেছেন।
প্রথম ধাপে, এআইকে একটা কার্টুন ছবি দেখানো হয়েছে। সাথে দেওয়া হয়েছে পাঁচটি ভিন্ন ভিন্ন ক্যাপশন। এআইকে বলতে হয়েছে, এর মধ্যে কোনটা আসল ক্যাপশন, যেটা কার্টুনিস্ট ভেবেছিলেন। এটা হলো বেসিক ম্যাচিং টেস্ট।
দ্বিতীয় ধাপে, কাজটা আরও কঠিন করা হলো। একটা কার্টুনের সাথে এবার দুটো ক্যাপশন দেওয়া হলো। একটা হলো সেই কার্টুনের জন্য সাধারন জনগনের ভোটে বিজয়ী ক্যাপশন৷ অন্যটা ছিল একটা একেবারেই সাধারণ মানের ক্যাপশন। এআইকে বলা হলো, এই দুইটার মধ্যে কোনটা বেশি ভালো বা বেশি মজার, সেটা বেছে বের করো। এটা হলো হিউমারের 'মান' বোঝার পরীক্ষা।
তৃতীয় এবং সবচেয়ে কঠিন ধাপে, এআইকে একটা কার্টুন আর সেটার বিজয়ী ক্যাপশনটা দিয়ে বলা হলো, আচ্ছা, এবার বুঝিয়ে বলো তো, এই ক্যাপশনটা এই ছবির সাথে কেন এত মজার? কী এমন আছে এতে যে মানুষ হাসছে? এটা হলো জোকস 'ব্যাখ্যা' করার পরীক্ষা, যা করতে হলে রসবোধের একেবারে গভীরে ঢুকতে হয়।
মজার ব্যাপার হলো, গবেষকরা এই পরীক্ষাগুলো দুইভাবে নিয়েছেন। একবার তারা এআই মডেলকে সরাসরি কার্টুনের ছবিটিই দেখিয়েছেন। আরেকবার তারা এআই এর কাজটা একটু সহজ করে দিয়েছেন। তারা নিজেরা মানুষ দিয়ে কার্টুনের ছবিটা কেমন, তাতে কী কী অদ্ভুত জিনিস আছে, তার একটা বিস্তারিত লিখিত বর্ণনা তৈরি করেছেন। যেমন, "একটা লোক স্যুটেড-বুটেড হয়ে অফিসে বসে আছে, কিন্তু তার টেবিলে কম্পিউটারের জায়গায় একটা আস্ত ভেড়া দাঁড়িয়ে আছে।"
এই বর্ণনাটা তারা জিপিটি-৪ এর মতো শক্তিশালী ল্যাঙ্গুয়েজ মডেলকে দিয়ে তারপর ক্যাপশনটা দিয়েছেন। এর উদ্দেশ্য ছিল এটা দেখা যে, ছবি বোঝার কষ্টটা যদি আমরা বাদও দিই, শুধু লেখা পড়েই কি এআই জোকসের মজাটা ধরতে পারে?
ফলাফল যা এসেছে তা খুবই পরিষ্কার। রসবোধের এই পরীক্ষায় এআই মানুষের চেয়ে হাজার হাজার মাইল পিছিয়ে আছে।
দেখা গেছে, প্রথম ধাপে যেখানে মানুষ ৯৪ শতাংশ ক্ষেত্রেই সঠিক ক্যাপশনটা খুঁজে বের করতে পেরেছে, সেখানে সেরা এআই মডেলগুলো সফল হয়েছে মাত্র ৬২ শতাংশ ক্ষেত্রে।
কিন্তু সবচেয়ে অবাক করা ফলাফল এসেছে শেষ ধাপে। যখন এআইকে কার্টুনের পুরো বর্ণনা হাতে-কলমে লিখে দেওয়া হলো, তারপরেও জোকস ব্যাখ্যা করার ক্ষেত্রে জিপিটি-৪ মানুষের কাছে পাত্তাই পায়নি। ৬৮ শতাংশ ক্ষেত্রেই মানুষ, এআই এর লেখা ব্যাখ্যার চেয়ে মানুষের করা ব্যাখ্যাকেই বেশি ভালো, যৌক্তিক এবং মজার বলে উল্লেখ করেছে।
এই গবেষণাটা একটা জিনিস খুব পরিষ্কার করে। এআই হয়তো শব্দ চেনে, বাক্য গঠন করতে পারে, তথ্য সাজিয়ে দিতে পারে। কিন্তু মানুষের রসবোধের পেছনে যে বিশাল সাংস্কৃতিক জ্ঞান, অভিজ্ঞতা, আর অসংগতি বোঝার ক্ষমতা কাজ করে, সেই 'বোঝা' নামক জিনিসটা কম্পিউটারের এখনও হয়নি। সে হয়তো বলতে পারে কোনটা 'ফানি' বলে ডেটাবেজে লেখা আছে, কিন্তু সে নিজে সেই মজাটা 'অনুভব' করতে পারে না。
- যারা শেষ পর্যন্ত পড়েছেন। আপনারাও চাইলে চ্যালেঞ্জটায় অংশ নিতে পারেন। ব্যস্ততার জন্য দিনে একটা না পারেন সপ্তাহে একটা পড়লেন। সেইটা নিয়েই নাহয় লিখলেন।