AI কী সময় বুঝে ? ACL 2019 Explores

একটা ভ্যাকেশনে যাওয়া আর একটু হেঁটে আসার মধ্যে কোনটায় বেশি সময় লাগে?

খুব সোজা প্রশ্ন, তাই না? যে কেউই বলবে ভ্যাকেশনে অনেক বেশি সময় লাগে। এটা একটা কমনসেন্স বা সাধারণ জ্ঞান। কিন্তু কম্পিউটার বা আর্টিফিশিয়াল ইন্টেলিজেন্স (এআই) কি এই সহজ ব্যাপারটা বোঝে? উত্তর হলো, না।

আজকে একটা অসাধারণ গবেষণা পত্র নিয়ে কথা বলবো যেটার শিরোনামটাই এমন মজার। পেপারটির নাম “Going on a vacation” takes longer than “Going for a walk” এই পেপারটি প্রথমবার দেখিয়েছিল যে সময়ের ব্যাপারে এআই মডেলগুলোর সাধারণ জ্ঞান বলতে কিছুই নেই।

গবেষণাটির নতুনত্ব কী ছিল?

এর আগে কেউ এভাবে সময়ের সাধারণ জ্ঞান নিয়ে কম্পিউটারকে পরীক্ষা করেনি। এই গবেষকরাই প্রথমবার সময়ের কমনসেন্সকে কয়েকটি ভাগে ভাগ করেছেন:

ডিউরেশন: কোন কাজে কত সময় লাগে? (যেমন, ভ্যাকেশন > হাঁটা)
অর্ডারিং: কোনটার পর কোনটা হয়? (যেমন, ঘুম থেকে ওঠা > দাঁত ব্রাশ করা)
টিপিক্যাল টাইম: কোন কাজটা সাধারণত কখন করা হয়? (যেমন, নাস্তা > সকালে)
ফ্রিকোয়েন্সি: কতদিন পর পর করা হয়? (যেমন, ভ্যাকেশন > বছরে একবার, হাঁটা > প্রতিদিন)
স্টেশনারিটি: কোন অবস্থা কতক্ষণ স্থায়ী হয়? (যেমন, "সে ছোটবেলায় খামারে থাকতো" এর মানে সে এখন আর থাকে না)

এই গবেষকরা শুধু এই ভাগগুলোই করেননি, তারা এগুলো পরীক্ষা করার জন্য একটি নতুন ডেটাসেট বা প্রশ্নব্যাংক তৈরি করেছেন। এর নাম দিয়েছেন এমসিটাকো (MCTACO)।

গবেষকদের মেথোডোলজি বা কাজের পদ্ধতি

এই এমসিটাকো ডেটাসেট বানানোই ছিল এই গবেষণার মূল চ্যালেঞ্জ। তারা এটা চারটা ধাপে বানিয়েছেন।

প্রশ্ন তৈরি: তারা কিছু সাধারণ মানুষকে ইন্টারনেটের লেখা দিয়ে বলেছেন, "এখান থেকে সময়ের ব্যাপারে এমন প্রশ্ন করো যার উত্তর সরাসরি ওই লেখায় নেই, কিন্তু কমনসেন্স দিয়ে বোঝা যায়।" যেমন, একটা মিটিং এর নোট থেকে প্রশ্ন হতে পারে, "ওই মিটিংটা কতক্ষণ চলেছিল?" সাধারন মানুষ কিন্তু নোট এর আকার আকৃতি আর লেখা পড়ে আন্দাজ করতে পারবেন এরকম একটা মিটিং কতক্ষণ চলা উচিত।
প্রশ্ন যাচাই: সেই প্রশ্নগুলো আবার অন্য লোকদের দিয়ে চেক করিয়েছেন। তারা দেখেছেন প্রশ্নগুলো আসলেই ভালো মানের কিনা এবং নিয়ম মেনে করা হয়েছে কিনা।
অনেকগুলো অপশন তৈরি: এই ধাপটা মজার। প্রত্যেকটা প্রশ্নের জন্য তারা অনেকগুলো সম্ভাব্য উত্তর বা অপশন তৈরি করেছেন। কিছু ঠিক, কিছু ভুল। এই কাজটা তারা কয়েকভাবে করেছেন। কিছু নিয়ম দিয়ে (যেমন একটা অপশন "২ ঘণ্টা" হলে তারা "২ দিন" বা "১০ মিনিট" যোগ করেছে)। এমনকি তারা সেই সময়ের সেরা এআই মডেল (বার্ট) কে দিয়েই নতুন নতুন শব্দ বসিয়ে অপশন তৈরি করিয়েছেন।
উত্তর লেবেলিং: এটা সবচেয়ে গুরুত্বপূর্ণ। প্রত্যেকটা প্রশ্ন আর তার সম্ভাব্য উত্তর (যেমন, প্রশ্ন: মিটিং কতক্ষণ চলেছিল? উত্তর: ২ ঘণ্টা) চারজন আলাদা মানুষকে দেখানো হয়েছে। তাদের শুধু বলতে বলা হয়েছে এই উত্তরটা "সম্ভাব্য" (likely) নাকি "অসম্ভাব্য" (unlikely)।

গবেষকরা শুধু সেই প্রশ্ন আর উত্তরগুলোকেই তাদের ডেটাসেটে রেখেছেন, যেগুলোর ব্যাপারে চারজন লোকই একমত হয়েছে। অর্থাৎ, চারজনই বলেছে "সম্ভাব্য" অথবা চারজনই বলেছে "অসম্ভাব্য"। এতে ডেটাসেটের মান খুব ভালো হয়েছে।

ফলাফল বা রেজাল্ট কী ছিল?

ডেটাসেট তো তৈরি হলো। এবার পরীক্ষার পালা। একদিকে মানুষ, আরেকদিকে সেই সময়ের সবচেয়ে শক্তিশালী এআই মডেল (যেমন বার্ট)।

ফলাফল ছিল অবাক করার মতো।

মানুষ এই পরীক্ষায় স্কোর করেছে ৮৭ শতাংশ। এটাই স্বাভাবিক, কারণ এটা মানুষেরই কমনসেন্স।

আর বার্ট (BERT), যে মডেলটি তখন পুরো বিশ্ব কাঁপাচ্ছিল, সে স্কোর করেছে মাত্র ৬৬ শতাংশ।

এই যে প্রায় ২০ শতাংশের বিশাল গ্যাপ, এটাই ছিল গবেষণার মূল আবিষ্কার। এআই মডেলগুলো ফেল করেছে।

কিন্তু কেন ফেল করলো? গবেষকরা গভীরে গিয়ে দেখেছেন। যেমন, একটা প্রশ্ন ছিল "চেয়ারম্যান কতক্ষণ কথা বলেছেন?" এর অপশনে ছিল "৩০ মিনিট", "১ ঘণ্টা", "৯ ঘণ্টা" এবং "২০ সেকেন্ড"।

এআই মডেলগুলো এটা বুঝতে পেরেছে যে "কথা বলা"র সাথে "মিনিট" বা "ঘণ্টা"র সম্পর্ক আছে। কিন্তু এটা বুঝতে পারেনি যে একজন চেয়ারম্যানের "১ ঘণ্টা" কথা বলা সম্ভব হলেও "৯ ঘণ্টা" কথা বলাটা খুবই অস্বাভাবিক।

এর মানে হলো, এআই আসলে সময়ের ধারণাটা বুঝতে পারছিল না। সে শুধু শব্দ মুখস্থ করছিল। সে দেখছিল "কথা বলা" শব্দটার আশেপাশে "ঘণ্টা" শব্দটা বারবার আসে, তাই সে দুটোকেই সঠিক ভাবছিল। তার কোনো আসল কমনসেন্স তৈরি হয়নি।

আরেকটা বড় সমস্যা দেখা গেছে। মানুষ যখন উত্তর দিয়েছে, তখন সবগুলো অপশন দেখেশুনে একটা সামঞ্জস্যপূর্ণ উত্তর দিয়েছে। কিন্তু এআই মডেলগুলো প্রত্যেকটা অপশনকে আলাদা আলাদাভাবে বিচার করেছে, তাই তাদের উত্তরে কোনো মিল ছিল না।

এই গবেষণার সীমাবদ্ধতা কী ছিল?

গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন:

তাদের ডেটাসেট ছিল সাধারণ লেখালেখির ওপর। কিন্তু বিশেষায়িত জায়গা, যেমন মেডিকেল রিপোর্ট বা আইনি কাগজপত্রের সময়ের হিসাব অন্যরকম। সেটা এই মডেলে ছিল না।
যেহেতু সাধারণ মানুষের দিয়ে কাজ করানো হয়েছে, তাই তাদের নিজস্ব সংস্কৃতি বা চিন্তাধারার একটা ছাপ উত্তরের ওপর পড়তে পারে।
সময়ের সব জটিল দিক, যেমন "মঙ্গলবারের ৩ দিন পর" বা "একটার কারণে আরেকটা ঘটনা ঘটলো" এই ধরনের বিষয়গুলো তারা পরীক্ষা করেননি।

এই গবেষণার গুরুত্ব কী?

এই পেপারটা ছিল একটা "ওয়েক আপ কল"। এটা পুরো এআই জগতকে চোখে আঙুল দিয়ে দেখিয়ে দিয়েছে যে শুধু ইন্টারনেট পড়ে ফেললেই এআই 'বুদ্ধিমান' হয়ে যায় না বা তার 'কমনসেন্স' তৈরি হয় না।

এই গবেষণার ফলে গবেষকরা বুঝতে পারলেন যে এআইকে সময় শেখানোর জন্য আমাদের নতুন কোনো উপায় বের করতে হবে।

সবচেয়ে বড় কথা হলো, তারা যে এমসিটাকো ডেটাসেটটি তৈরি করেছেন, সেটা একটা স্ট্যান্ডার্ড পরীক্ষায় পরিণত হয়েছে। এখন নতুন যত এআই মডেল তৈরি হয়, তাদের অনেককেই এই পরীক্ষাটা দিয়ে পাস করতে হয়। এই পেপারটা একটা নতুন গবেষণার দুয়ার খুলে দিয়েছে।

ব্যাপারটা শুধু ভ্যাকেশন বা হেঁটে আসা নিয়ে নয়। ব্যাপারটা হলো এআইকে পৃথিবীর সাধারণ নিয়মকানুন বা সময়ের এই স্বাভাবিক ছন্দটা শেখানো।

AI কী সময় বুঝে ? ACL 2019 Explores

Table of Contents

গবেষণাটির নতুনত্ব কী ছিল?

গবেষকদের মেথোডোলজি বা কাজের পদ্ধতি

ফলাফল বা রেজাল্ট কী ছিল?

এই গবেষণার সীমাবদ্ধতা কী ছিল?

এই গবেষণার গুরুত্ব কী?

Share this article

Written by Sakhawat Adib

References

``Going on a vacation'' takes longer than ``Going for a walk'': A Study of Temporal Commonsense Understanding

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?