একটা ভ্যাকেশনে যাওয়া আর একটু হেঁটে আসার মধ্যে কোনটায় বেশি সময় লাগে?
খুব সোজা প্রশ্ন, তাই না? যে কেউই বলবে ভ্যাকেশনে অনেক বেশি সময় লাগে। এটা একটা কমনসেন্স বা সাধারণ জ্ঞান। কিন্তু কম্পিউটার বা আর্টিফিশিয়াল ইন্টেলিজেন্স (এআই) কি এই সহজ ব্যাপারটা বোঝে? উত্তর হলো, না।
আজকে একটা অসাধারণ গবেষণা পত্র নিয়ে কথা বলবো যেটার শিরোনামটাই এমন মজার। পেপারটির নাম “Going on a vacation” takes longer than “Going for a walk” এই পেপারটি প্রথমবার দেখিয়েছিল যে সময়ের ব্যাপারে এআই মডেলগুলোর সাধারণ জ্ঞান বলতে কিছুই নেই।
গবেষণাটির নতুনত্ব কী ছিল?
এর আগে কেউ এভাবে সময়ের সাধারণ জ্ঞান নিয়ে কম্পিউটারকে পরীক্ষা করেনি। এই গবেষকরাই প্রথমবার সময়ের কমনসেন্সকে কয়েকটি ভাগে ভাগ করেছেন:
- ডিউরেশন: কোন কাজে কত সময় লাগে? (যেমন, ভ্যাকেশন > হাঁটা)
- অর্ডারিং: কোনটার পর কোনটা হয়? (যেমন, ঘুম থেকে ওঠা > দাঁত ব্রাশ করা)
- টিপিক্যাল টাইম: কোন কাজটা সাধারণত কখন করা হয়? (যেমন, নাস্তা > সকালে)
- ফ্রিকোয়েন্সি: কতদিন পর পর করা হয়? (যেমন, ভ্যাকেশন > বছরে একবার, হাঁটা > প্রতিদিন)
- স্টেশনারিটি: কোন অবস্থা কতক্ষণ স্থায়ী হয়? (যেমন, "সে ছোটবেলায় খামারে থাকতো" এর মানে সে এখন আর থাকে না)
এই গবেষকরা শুধু এই ভাগগুলোই করেননি, তারা এগুলো পরীক্ষা করার জন্য একটি নতুন ডেটাসেট বা প্রশ্নব্যাংক তৈরি করেছেন। এর নাম দিয়েছেন এমসিটাকো (MCTACO)।
গবেষকদের মেথোডোলজি বা কাজের পদ্ধতি
এই এমসিটাকো ডেটাসেট বানানোই ছিল এই গবেষণার মূল চ্যালেঞ্জ। তারা এটা চারটা ধাপে বানিয়েছেন।
-
প্রশ্ন তৈরি: তারা কিছু সাধারণ মানুষকে ইন্টারনেটের লেখা দিয়ে বলেছেন, "এখান থেকে সময়ের ব্যাপারে এমন প্রশ্ন করো যার উত্তর সরাসরি ওই লেখায় নেই, কিন্তু কমনসেন্স দিয়ে বোঝা যায়।" যেমন, একটা মিটিং এর নোট থেকে প্রশ্ন হতে পারে, "ওই মিটিংটা কতক্ষণ চলেছিল?" সাধারন মানুষ কিন্তু নোট এর আকার আকৃতি আর লেখা পড়ে আন্দাজ করতে পারবেন এরকম একটা মিটিং কতক্ষণ চলা উচিত।
-
প্রশ্ন যাচাই: সেই প্রশ্নগুলো আবার অন্য লোকদের দিয়ে চেক করিয়েছেন। তারা দেখেছেন প্রশ্নগুলো আসলেই ভালো মানের কিনা এবং নিয়ম মেনে করা হয়েছে কিনা।
-
অনেকগুলো অপশন তৈরি: এই ধাপটা মজার। প্রত্যেকটা প্রশ্নের জন্য তারা অনেকগুলো সম্ভাব্য উত্তর বা অপশন তৈরি করেছেন। কিছু ঠিক, কিছু ভুল। এই কাজটা তারা কয়েকভাবে করেছেন। কিছু নিয়ম দিয়ে (যেমন একটা অপশন "২ ঘণ্টা" হলে তারা "২ দিন" বা "১০ মিনিট" যোগ করেছে)। এমনকি তারা সেই সময়ের সেরা এআই মডেল (বার্ট) কে দিয়েই নতুন নতুন শব্দ বসিয়ে অপশন তৈরি করিয়েছেন।
-
উত্তর লেবেলিং: এটা সবচেয়ে গুরুত্বপূর্ণ। প্রত্যেকটা প্রশ্ন আর তার সম্ভাব্য উত্তর (যেমন, প্রশ্ন: মিটিং কতক্ষণ চলেছিল? উত্তর: ২ ঘণ্টা) চারজন আলাদা মানুষকে দেখানো হয়েছে। তাদের শুধু বলতে বলা হয়েছে এই উত্তরটা "সম্ভাব্য" (likely) নাকি "অসম্ভাব্য" (unlikely)।
গবেষকরা শুধু সেই প্রশ্ন আর উত্তরগুলোকেই তাদের ডেটাসেটে রেখেছেন, যেগুলোর ব্যাপারে চারজন লোকই একমত হয়েছে। অর্থাৎ, চারজনই বলেছে "সম্ভাব্য" অথবা চারজনই বলেছে "অসম্ভাব্য"। এতে ডেটাসেটের মান খুব ভালো হয়েছে।
ফলাফল বা রেজাল্ট কী ছিল?
ডেটাসেট তো তৈরি হলো। এবার পরীক্ষার পালা। একদিকে মানুষ, আরেকদিকে সেই সময়ের সবচেয়ে শক্তিশালী এআই মডেল (যেমন বার্ট)।
ফলাফল ছিল অবাক করার মতো।
মানুষ এই পরীক্ষায় স্কোর করেছে ৮৭ শতাংশ। এটাই স্বাভাবিক, কারণ এটা মানুষেরই কমনসেন্স।
আর বার্ট (BERT), যে মডেলটি তখন পুরো বিশ্ব কাঁপাচ্ছিল, সে স্কোর করেছে মাত্র ৬৬ শতাংশ।
এই যে প্রায় ২০ শতাংশের বিশাল গ্যাপ, এটাই ছিল গবেষণার মূল আবিষ্কার। এআই মডেলগুলো ফেল করেছে।
কিন্তু কেন ফেল করলো? গবেষকরা গভীরে গিয়ে দেখেছেন। যেমন, একটা প্রশ্ন ছিল "চেয়ারম্যান কতক্ষণ কথা বলেছেন?" এর অপশনে ছিল "৩০ মিনিট", "১ ঘণ্টা", "৯ ঘণ্টা" এবং "২০ সেকেন্ড"।
এআই মডেলগুলো এটা বুঝতে পেরেছে যে "কথা বলা"র সাথে "মিনিট" বা "ঘণ্টা"র সম্পর্ক আছে। কিন্তু এটা বুঝতে পারেনি যে একজন চেয়ারম্যানের "১ ঘণ্টা" কথা বলা সম্ভব হলেও "৯ ঘণ্টা" কথা বলাটা খুবই অস্বাভাবিক।
এর মানে হলো, এআই আসলে সময়ের ধারণাটা বুঝতে পারছিল না। সে শুধু শব্দ মুখস্থ করছিল। সে দেখছিল "কথা বলা" শব্দটার আশেপাশে "ঘণ্টা" শব্দটা বারবার আসে, তাই সে দুটোকেই সঠিক ভাবছিল। তার কোনো আসল কমনসেন্স তৈরি হয়নি।
আরেকটা বড় সমস্যা দেখা গেছে। মানুষ যখন উত্তর দিয়েছে, তখন সবগুলো অপশন দেখেশুনে একটা সামঞ্জস্যপূর্ণ উত্তর দিয়েছে। কিন্তু এআই মডেলগুলো প্রত্যেকটা অপশনকে আলাদা আলাদাভাবে বিচার করেছে, তাই তাদের উত্তরে কোনো মিল ছিল না।
এই গবেষণার সীমাবদ্ধতা কী ছিল?
গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন:
- তাদের ডেটাসেট ছিল সাধারণ লেখালেখির ওপর। কিন্তু বিশেষায়িত জায়গা, যেমন মেডিকেল রিপোর্ট বা আইনি কাগজপত্রের সময়ের হিসাব অন্যরকম। সেটা এই মডেলে ছিল না।
- যেহেতু সাধারণ মানুষের দিয়ে কাজ করানো হয়েছে, তাই তাদের নিজস্ব সংস্কৃতি বা চিন্তাধারার একটা ছাপ উত্তরের ওপর পড়তে পারে।
- সময়ের সব জটিল দিক, যেমন "মঙ্গলবারের ৩ দিন পর" বা "একটার কারণে আরেকটা ঘটনা ঘটলো" এই ধরনের বিষয়গুলো তারা পরীক্ষা করেননি।
এই গবেষণার গুরুত্ব কী?
এই পেপারটা ছিল একটা "ওয়েক আপ কল"। এটা পুরো এআই জগতকে চোখে আঙুল দিয়ে দেখিয়ে দিয়েছে যে শুধু ইন্টারনেট পড়ে ফেললেই এআই 'বুদ্ধিমান' হয়ে যায় না বা তার 'কমনসেন্স' তৈরি হয় না।
এই গবেষণার ফলে গবেষকরা বুঝতে পারলেন যে এআইকে সময় শেখানোর জন্য আমাদের নতুন কোনো উপায় বের করতে হবে।
সবচেয়ে বড় কথা হলো, তারা যে এমসিটাকো ডেটাসেটটি তৈরি করেছেন, সেটা একটা স্ট্যান্ডার্ড পরীক্ষায় পরিণত হয়েছে। এখন নতুন যত এআই মডেল তৈরি হয়, তাদের অনেককেই এই পরীক্ষাটা দিয়ে পাস করতে হয়। এই পেপারটা একটা নতুন গবেষণার দুয়ার খুলে দিয়েছে।
ব্যাপারটা শুধু ভ্যাকেশন বা হেঁটে আসা নিয়ে নয়। ব্যাপারটা হলো এআইকে পৃথিবীর সাধারণ নিয়মকানুন বা সময়ের এই স্বাভাবিক ছন্দটা শেখানো।