AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

#A_Paper_A_Day এর আজকে একাদশ দিন। ১১ তম পেপার হিসেবে “Measuring Psychological Depth in Language Models” নামের খুবই ইন্টারেস্টিং একটা পেপার পড়লাম। emnlp 2024 এ আউটস্ট্যান্ডিং পেপার এর খেতাব পাওয়া এই গবেষণা বেশ ভালোই চিন্তার খোরাক জাগায়। আপনাকে একটা প্রশ্ন করে শুরু করি,

মানুষের লেখা গল্প নাকি আর্টিফিশিয়াল ইন্টেলিজেন্স বা এআই এর লেখা গল্প কোনটা আপনার মন ছুঁয়ে যায় বেশি?

আমরা এতদিন জানতাম, এআই খুব ভালো ব্যাকরণ মেনে লিখতে পারে, তথ্য গুছিয়ে দিতে পারে। কিন্তু গল্পের ভেতরে যে একটা 'প্রাণ' থাকে, যেটা পড়লে আনন্দ হয়, মন খারাপ হয়, মায়া লাগে বা বুকের ভেতরটা মোচড় দিয়ে ওঠে সেই গভীরতা কি এআই আনতে পারে?

সম্প্রতি একদল গবেষক ঠিক এই প্রশ্নটির উত্তর খুঁজেছেন। এবং তাদের গবেষণার ফলাফল এককথায় যেমন অসাধারণ তেমনই শত শত নতুন চিন্তার জন্মও দেয়।

তারা শুধু এটা মাপেননি যে এআই ভালো গল্প লিখতে পারে কিনা। তারা মাপতে চেষ্টা করেছেন এআই এর লেখা গল্প মানুষের মনে কতোটা 'মনস্তাত্ত্বিক গভীরতা' বা 'সাইকোলজিক্যাল ডেপথ' তৈরি করতে পারে।

গবেষণাটির নতুনত্ব ঠিক এইখানে। তারা একটি একেবারে নতুন 'মাপকাঠি' বা স্কেল তৈরি করেছেন। নাম দিয়েছেন "সাইকোলজিক্যাল ডেপথ স্কেল" (পিডিএস)। এই স্কেল দিয়ে তারা গল্পকে পাঁচটি ধাপে পরীক্ষা করেছেন।

পরীক্ষণ

গবেষকদের তৈরি সেই পাঁচটি ধাপ ছিলো:

ইমোশন প্রোভোকেশন: গল্পটা পড়ে আপনার মনে কতটা তোলপাড় হলো? আপনি কি রেগে গেলেন, কষ্ট পেলেন বা আনন্দিত হলেন?
এমপ্যাথি: গল্পের প্রধান চরিত্রের জন্য আপনার কতটা মায়া লাগলো? তার কষ্টে কি আপনার কষ্ট লেগেছে?
এনগেজমেন্ট: গল্পটা কি আপনাকে এক বসায় শেষ করতে বাধ্য করেছে? নাকি পড়তে গিয়ে মনোযোগ হারিয়ে গেছে?
অথেন্টিসিটি: পুরো গল্প আর তার চরিত্রদের কি আপনার কাছে 'বাস্তব' বা 'আসল' মনে হয়েছে?
ন্যারেটিভ কমপ্লেক্সিটি: গল্পের কাহিনী বা চরিত্রগুলো কি খুবই সাদামাটা, নাকি সেগুলোর মধ্যে জটিলতা ও গভীরতা ছিল?

গবেষকরা প্রথমে এই স্কেলটি সাধারণ মানুষের ওপর প্রয়োগ করে নিশ্চিত হয়েছেন যে এটা আসলেই কাজ করে।

এরপর শুরু হলো আসল খেলা। একটা প্রতিযোগিতা। একদিকে মানুষ লেখক, আরেকদিকে এআই। গবেষকরা প্রথমে রেডিট থেকে মানুষের লেখা প্রচুর গল্প সংগ্রহ করলেন। এই গল্পগুলোকে তারা আবার তিনটি ভাগে ভাগ করলেন।

সাধারণ মানের লেখা (নোভিস)
মাঝারি মানের লেখা (ইন্টারমিডিয়েট)
খুব ভালো মানের লেখা (অ্যাডভান্সড) যেগুলো সবচেয়ে বেশি ভোট পেয়েছে।

এরপর তারা GPT-4 সহ বেশ কয়েকটি শক্তিশালী এআই মডেলকে ডাকলেন। মানুষ এবং এআই উভয়কেই একই গল্পের প্লট বা বিষয়বস্তু (প্রেমিস) দেওয়া হলো এবং তার ওপর ভিত্তি করে ছোট গল্প লিখতে বলা হলো।

এখানেও একটা মজার ব্যাপার আছে। এআই কে দিয়ে ভালো গল্প লেখানোর জন্য গবেষকরা দুটি বিশেষ কৌশল ব্যবহার করেন।

"রাইটার প্রোফাইল" : এখানে এআই কে বলা হয়, "তুমি একজন বিশ্ববিখ্যাত, পুরস্কারপ্রাপ্ত লেখক। তোমার লেখা মানুষের মন ছুঁয়ে যায়। এখন সেইভাবে লেখো।"
"প্ল্যান প্লাস রাইট" : এখানে এআই কে বলা হয়, আগে গল্পের চরিত্রগুলোর মনের ভেতরের চিন্তা ভাবনাগুলো পরিকল্পনা করো, তারপর সেই পরিকল্পনা থেকে পুরো গল্পটা লেখো।

ফলাফল

গবেষণায় দেখা গেলো, মানুষের লেখা সবচেয়ে সেরা গল্পগুলোর (রেডিটের অ্যাডভান্সড ক্যাটাগরি) সাথে যখন জিপিটি ফোর এর গল্পের তুলনা করা হলো, তখন দুটি ক্ষেত্রে জিপিটি ফোর সরাসরি জিতে গেছে। মানুষের চেয়েও জিপিটি ফোর এর লেখা গল্পে "এমপ্যাথি" (চরিত্রের জন্য মায়া) এবং "ন্যারেটিভ কমপ্লেক্সিটি" (গল্পের গভীরতা) বেশি ছিল।

আর বাকি তিনটা ক্ষেত্রে অর্থাৎ গল্প পড়ে মনে তোলপাড় হওয়া, গল্প টেনে ধরে রাখা এবং গল্পকে বাস্তব মনে হওয়ার দিক দিয়ে জিপিটি ফোর এর লেখা সেরা মানুষ লেখকদের গল্পের সমান সমান অবস্থানে ছিলো। একবিন্দুও পিছিয়ে ছিলোনা।

ফলাফলের আরও একটা দিক ছিলো। গবেষকরা গল্পগুলো পড়ার পর মানুষদের জিজ্ঞেস করেছিলেন, "বলুন তো, কোনটা মানুষের লেখা আর কোনটা এআই এর?"

মানুষ বেশিরভাগ সময়ই ধরতে পারেনি।

দেখা গেলো, যখন মানুষ জিপিটি ফোরের লেখা গল্প পড়েছে, ৭৩ শতাংশ সময়ই তারা ভুল করে বলেছে যে এটা কোনো মানুষের লেখা। মানুষ যখন কোনো গল্পকে "অতিরিক্ত সৃজনশীল" (হাইলি ক্রিয়েটিভ) বা "খুবই সূক্ষ্ম" (নুয়ান্সড) বলে রায় দিয়েছে, দেখা গেছে সেই গল্পগুলোর বেশিরভাগই জিপিটি ফোরের লেখা। এমনকি, এআই যখন মাঝে মাঝে ছোটখাটো ব্যাকরণগত ভুল করেছে, মানুষ ভেবেছে, "আরে! এটা তো মানুষের লেখার ধরণ। এআই এতো নিখুঁত ভুল করতে পারেনা!"

গবেষকরা আরও এক ধাপ এগিয়ে চিন্তা করলেন। এভাবে মানুষ দিয়ে হাজার হাজার গল্প পরীক্ষা করা তো অনেক সময়সাপেক্ষ আর ব্যয়বহুল। তাই তারা পরীক্ষা করে দেখলেন যে,

একটা এআই কি অন্য এআই এর গল্পের গভীরতা মাপতে পারে?

তারা জিপিটি ফোরও (GPT-4o) এর মতো নতুন মডেলকে বিচারক বানালেন। এবং তাদেরও একটা বিশেষ কৌশল শেখালেন, যার নাম "মিক্সচার অফ পারসোনাস"। অর্থাৎ এআই বিচারককে বলা হলো,

"তুমি একবার 'সহানুভূতি বিশেষজ্ঞ' হিসেবে গল্পটা পড়ো,
আরেকবার 'গল্পের জটিলতা বিশেষজ্ঞ' হিসেবে পড়ো।"

এবং এই পদ্ধতিতেও দারুণ কাজ হলো। এআই বিচারকের দেওয়া রেটিং মানুষের দেওয়া রেটিং এর খুব কাছাকাছি ছিলো।

তবে, গবেষকরা নিজেরাই তাদের গবেষণার কিছু সীমাবদ্ধতার কথা স্বীকার করেছেন।

প্রথমত, তারা গল্পগুলো নিয়েছিলেন রেডিট থেকে। রেডিটের লেখকরা বেশ ভালো লেখেন, কিন্তু তারা হয়তো তলস্তয় বা হেমিংওয়ের মতো বিশ্বসেরা সাহিত্যিক নন। তাই জিপিটি ফোর রেডিটের লেখকদের হারাতে পারলেও, সেরা সাহিত্যিকদের হারাতে পারবে কিনা তা গ্যারান্টি দেওয়া যাচ্ছেনা।
দ্বিতীয়ত, এই পরীক্ষাটি ছিলো শুধু ছোট গল্পের (প্রায় ৪৫০ শব্দ) ওপর। একটা আস্ত বড় উপন্যাস লেখার সময় এআই এই মনস্তাত্ত্বিক গভীরতা ধরে রাখতে পারবে কিনা, তা এখনো অজানা।
তৃতীয়ত এবং এইটা আমার অবজারভেশন, মডেল পারছে কিন্তু অবস্যই ইংরেজীতে। বাংলায় যে মডেলের লেখা মানুষের ধারে কাছে যাবে না, এ আর বলে দেওয়ার না।

এই গবেষণার গুরুত্ব কী?

এই গবেষণা প্রমাণ করে যে এআই শুধু তথ্য কপি করা বা তোতাপাখির মতো কথা বলা যন্ত্র নয়। এটি এমন শিল্প তৈরি করতে শুরু করেছে যা মানুষের মনকে গভীরভাবে স্পর্শ করতে পারে। আগে আমরা ভাবতাম, আবেগ, অনুভূতি, সহানুভূতি এগুলো মানুষের একচেটিয়া। এই ধারণাটি হয়তো আর বেশিদিন টিকবে না। লেখালিখি, সিনেমা বা সৃষ্টিশীল যে কোনো মাধ্যমে এআই হয়তো আর শুধু 'সহকারী' থাকবে না, হয়ে উঠবে একজন সত্যিকারের 'শিল্পী'।

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

Table of Contents

পরীক্ষণ

ফলাফল

এই গবেষণার গুরুত্ব কী?

Share this article

Written by Sakhawat Adib

References

Measuring Psychological Depth in Language Models

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

গবেষণাপত্র পড়ব কিভাবে ?

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

আদালতে AI? Paper in NAACL 2025 Explains

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?