AI কী সময় বুঝে ? ACL 2019 Explores

AI Temporal Reasonong MCTaco Time Analysis ACL 2019
AI কী সময় বুঝে ? ACL 2019 Explores

একটা ভ্যাকেশনে যাওয়া আর একটু হেঁটে আসার মধ্যে কোনটায় বেশি সময় লাগে?

খুব সোজা প্রশ্ন, তাই না? যে কেউই বলবে ভ্যাকেশনে অনেক বেশি সময় লাগে। এটা একটা কমনসেন্স বা সাধারণ জ্ঞান। কিন্তু কম্পিউটার বা আর্টিফিশিয়াল ইন্টেলিজেন্স (এআই) কি এই সহজ ব্যাপারটা বোঝে? উত্তর হলো, না

আজকে একটা অসাধারণ গবেষণা পত্র নিয়ে কথা বলবো যেটার শিরোনামটাই এমন মজার। পেপারটির নাম “Going on a vacation” takes longer than “Going for a walk” এই পেপারটি প্রথমবার দেখিয়েছিল যে সময়ের ব্যাপারে এআই মডেলগুলোর সাধারণ জ্ঞান বলতে কিছুই নেই।

গবেষণাটির নতুনত্ব কী ছিল?

এর আগে কেউ এভাবে সময়ের সাধারণ জ্ঞান নিয়ে কম্পিউটারকে পরীক্ষা করেনি। এই গবেষকরাই প্রথমবার সময়ের কমনসেন্সকে কয়েকটি ভাগে ভাগ করেছেন:

  1. ডিউরেশন: কোন কাজে কত সময় লাগে? (যেমন, ভ্যাকেশন > হাঁটা)
  2. অর্ডারিং: কোনটার পর কোনটা হয়? (যেমন, ঘুম থেকে ওঠা > দাঁত ব্রাশ করা)
  3. টিপিক্যাল টাইম: কোন কাজটা সাধারণত কখন করা হয়? (যেমন, নাস্তা > সকালে)
  4. ফ্রিকোয়েন্সি: কতদিন পর পর করা হয়? (যেমন, ভ্যাকেশন > বছরে একবার, হাঁটা > প্রতিদিন)
  5. স্টেশনারিটি: কোন অবস্থা কতক্ষণ স্থায়ী হয়? (যেমন, "সে ছোটবেলায় খামারে থাকতো" এর মানে সে এখন আর থাকে না)

এই গবেষকরা শুধু এই ভাগগুলোই করেননি, তারা এগুলো পরীক্ষা করার জন্য একটি নতুন ডেটাসেট বা প্রশ্নব্যাংক তৈরি করেছেন। এর নাম দিয়েছেন এমসিটাকো (MCTACO)।

গবেষকদের মেথোডোলজি বা কাজের পদ্ধতি

এই এমসিটাকো ডেটাসেট বানানোই ছিল এই গবেষণার মূল চ্যালেঞ্জ। তারা এটা চারটা ধাপে বানিয়েছেন।

  • প্রশ্ন তৈরি: তারা কিছু সাধারণ মানুষকে ইন্টারনেটের লেখা দিয়ে বলেছেন, "এখান থেকে সময়ের ব্যাপারে এমন প্রশ্ন করো যার উত্তর সরাসরি ওই লেখায় নেই, কিন্তু কমনসেন্স দিয়ে বোঝা যায়।" যেমন, একটা মিটিং এর নোট থেকে প্রশ্ন হতে পারে, "ওই মিটিংটা কতক্ষণ চলেছিল?" সাধারন মানুষ কিন্তু নোট এর আকার আকৃতি আর লেখা পড়ে আন্দাজ করতে পারবেন এরকম একটা মিটিং কতক্ষণ চলা উচিত।

  • প্রশ্ন যাচাই: সেই প্রশ্নগুলো আবার অন্য লোকদের দিয়ে চেক করিয়েছেন। তারা দেখেছেন প্রশ্নগুলো আসলেই ভালো মানের কিনা এবং নিয়ম মেনে করা হয়েছে কিনা।

  • অনেকগুলো অপশন তৈরি: এই ধাপটা মজার। প্রত্যেকটা প্রশ্নের জন্য তারা অনেকগুলো সম্ভাব্য উত্তর বা অপশন তৈরি করেছেন। কিছু ঠিক, কিছু ভুল। এই কাজটা তারা কয়েকভাবে করেছেন। কিছু নিয়ম দিয়ে (যেমন একটা অপশন "২ ঘণ্টা" হলে তারা "২ দিন" বা "১০ মিনিট" যোগ করেছে)। এমনকি তারা সেই সময়ের সেরা এআই মডেল (বার্ট) কে দিয়েই নতুন নতুন শব্দ বসিয়ে অপশন তৈরি করিয়েছেন।

  • উত্তর লেবেলিং: এটা সবচেয়ে গুরুত্বপূর্ণ। প্রত্যেকটা প্রশ্ন আর তার সম্ভাব্য উত্তর (যেমন, প্রশ্ন: মিটিং কতক্ষণ চলেছিল? উত্তর: ২ ঘণ্টা) চারজন আলাদা মানুষকে দেখানো হয়েছে। তাদের শুধু বলতে বলা হয়েছে এই উত্তরটা "সম্ভাব্য" (likely) নাকি "অসম্ভাব্য" (unlikely)।

গবেষকরা শুধু সেই প্রশ্ন আর উত্তরগুলোকেই তাদের ডেটাসেটে রেখেছেন, যেগুলোর ব্যাপারে চারজন লোকই একমত হয়েছে। অর্থাৎ, চারজনই বলেছে "সম্ভাব্য" অথবা চারজনই বলেছে "অসম্ভাব্য"। এতে ডেটাসেটের মান খুব ভালো হয়েছে।

ফলাফল বা রেজাল্ট কী ছিল?

ডেটাসেট তো তৈরি হলো। এবার পরীক্ষার পালা। একদিকে মানুষ, আরেকদিকে সেই সময়ের সবচেয়ে শক্তিশালী এআই মডেল (যেমন বার্ট)।

ফলাফল ছিল অবাক করার মতো।

মানুষ এই পরীক্ষায় স্কোর করেছে ৮৭ শতাংশ। এটাই স্বাভাবিক, কারণ এটা মানুষেরই কমনসেন্স।

আর বার্ট (BERT), যে মডেলটি তখন পুরো বিশ্ব কাঁপাচ্ছিল, সে স্কোর করেছে মাত্র ৬৬ শতাংশ

এই যে প্রায় ২০ শতাংশের বিশাল গ্যাপ, এটাই ছিল গবেষণার মূল আবিষ্কার। এআই মডেলগুলো ফেল করেছে।

কিন্তু কেন ফেল করলো? গবেষকরা গভীরে গিয়ে দেখেছেন। যেমন, একটা প্রশ্ন ছিল "চেয়ারম্যান কতক্ষণ কথা বলেছেন?" এর অপশনে ছিল "৩০ মিনিট", "১ ঘণ্টা", "৯ ঘণ্টা" এবং "২০ সেকেন্ড"।

এআই মডেলগুলো এটা বুঝতে পেরেছে যে "কথা বলা"র সাথে "মিনিট" বা "ঘণ্টা"র সম্পর্ক আছে। কিন্তু এটা বুঝতে পারেনি যে একজন চেয়ারম্যানের "১ ঘণ্টা" কথা বলা সম্ভব হলেও "৯ ঘণ্টা" কথা বলাটা খুবই অস্বাভাবিক।

এর মানে হলো, এআই আসলে সময়ের ধারণাটা বুঝতে পারছিল না। সে শুধু শব্দ মুখস্থ করছিল। সে দেখছিল "কথা বলা" শব্দটার আশেপাশে "ঘণ্টা" শব্দটা বারবার আসে, তাই সে দুটোকেই সঠিক ভাবছিল। তার কোনো আসল কমনসেন্স তৈরি হয়নি।

আরেকটা বড় সমস্যা দেখা গেছে। মানুষ যখন উত্তর দিয়েছে, তখন সবগুলো অপশন দেখেশুনে একটা সামঞ্জস্যপূর্ণ উত্তর দিয়েছে। কিন্তু এআই মডেলগুলো প্রত্যেকটা অপশনকে আলাদা আলাদাভাবে বিচার করেছে, তাই তাদের উত্তরে কোনো মিল ছিল না।

এই গবেষণার সীমাবদ্ধতা কী ছিল?

গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন:

  • তাদের ডেটাসেট ছিল সাধারণ লেখালেখির ওপর। কিন্তু বিশেষায়িত জায়গা, যেমন মেডিকেল রিপোর্ট বা আইনি কাগজপত্রের সময়ের হিসাব অন্যরকম। সেটা এই মডেলে ছিল না।
  • যেহেতু সাধারণ মানুষের দিয়ে কাজ করানো হয়েছে, তাই তাদের নিজস্ব সংস্কৃতি বা চিন্তাধারার একটা ছাপ উত্তরের ওপর পড়তে পারে।
  • সময়ের সব জটিল দিক, যেমন "মঙ্গলবারের ৩ দিন পর" বা "একটার কারণে আরেকটা ঘটনা ঘটলো" এই ধরনের বিষয়গুলো তারা পরীক্ষা করেননি।

এই গবেষণার গুরুত্ব কী?

এই পেপারটা ছিল একটা "ওয়েক আপ কল"। এটা পুরো এআই জগতকে চোখে আঙুল দিয়ে দেখিয়ে দিয়েছে যে শুধু ইন্টারনেট পড়ে ফেললেই এআই 'বুদ্ধিমান' হয়ে যায় না বা তার 'কমনসেন্স' তৈরি হয় না।

এই গবেষণার ফলে গবেষকরা বুঝতে পারলেন যে এআইকে সময় শেখানোর জন্য আমাদের নতুন কোনো উপায় বের করতে হবে।

সবচেয়ে বড় কথা হলো, তারা যে এমসিটাকো ডেটাসেটটি তৈরি করেছেন, সেটা একটা স্ট্যান্ডার্ড পরীক্ষায় পরিণত হয়েছে। এখন নতুন যত এআই মডেল তৈরি হয়, তাদের অনেককেই এই পরীক্ষাটা দিয়ে পাস করতে হয়। এই পেপারটা একটা নতুন গবেষণার দুয়ার খুলে দিয়েছে।

ব্যাপারটা শুধু ভ্যাকেশন বা হেঁটে আসা নিয়ে নয়। ব্যাপারটা হলো এআইকে পৃথিবীর সাধারণ নিয়মকানুন বা সময়ের এই স্বাভাবিক ছন্দটা শেখানো।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

``Going on a vacation'' takes longer than ``Going for a walk'': A Study of Temporal Commonsense Understanding

Zhou, Ben and Khashabi, Daniel and Ning, Qiang and Roth, Dan · 2019

Understanding time is crucial for understanding events expressed in natural language. Because people rarely say the obvious, it is often necessary to have commonsense knowledge about various temporal...

Read the paper