#A_Paper_A_Day এর আজকে একাদশ দিন। ১১ তম পেপার হিসেবে “Measuring Psychological Depth in Language Models” নামের খুবই ইন্টারেস্টিং একটা পেপার পড়লাম। emnlp 2024 এ আউটস্ট্যান্ডিং পেপার এর খেতাব পাওয়া এই গবেষণা বেশ ভালোই চিন্তার খোরাক জাগায়। আপনাকে একটা প্রশ্ন করে শুরু করি,
মানুষের লেখা গল্প নাকি আর্টিফিশিয়াল ইন্টেলিজেন্স বা এআই এর লেখা গল্প কোনটা আপনার মন ছুঁয়ে যায় বেশি?
আমরা এতদিন জানতাম, এআই খুব ভালো ব্যাকরণ মেনে লিখতে পারে, তথ্য গুছিয়ে দিতে পারে। কিন্তু গল্পের ভেতরে যে একটা 'প্রাণ' থাকে, যেটা পড়লে আনন্দ হয়, মন খারাপ হয়, মায়া লাগে বা বুকের ভেতরটা মোচড় দিয়ে ওঠে সেই গভীরতা কি এআই আনতে পারে?
সম্প্রতি একদল গবেষক ঠিক এই প্রশ্নটির উত্তর খুঁজেছেন। এবং তাদের গবেষণার ফলাফল এককথায় যেমন অসাধারণ তেমনই শত শত নতুন চিন্তার জন্মও দেয়।
তারা শুধু এটা মাপেননি যে এআই ভালো গল্প লিখতে পারে কিনা। তারা মাপতে চেষ্টা করেছেন এআই এর লেখা গল্প মানুষের মনে কতোটা 'মনস্তাত্ত্বিক গভীরতা' বা 'সাইকোলজিক্যাল ডেপথ' তৈরি করতে পারে।
গবেষণাটির নতুনত্ব ঠিক এইখানে। তারা একটি একেবারে নতুন 'মাপকাঠি' বা স্কেল তৈরি করেছেন। নাম দিয়েছেন "সাইকোলজিক্যাল ডেপথ স্কেল" (পিডিএস)। এই স্কেল দিয়ে তারা গল্পকে পাঁচটি ধাপে পরীক্ষা করেছেন।
পরীক্ষণ
গবেষকদের তৈরি সেই পাঁচটি ধাপ ছিলো:
-
ইমোশন প্রোভোকেশন: গল্পটা পড়ে আপনার মনে কতটা তোলপাড় হলো? আপনি কি রেগে গেলেন, কষ্ট পেলেন বা আনন্দিত হলেন?
-
এমপ্যাথি: গল্পের প্রধান চরিত্রের জন্য আপনার কতটা মায়া লাগলো? তার কষ্টে কি আপনার কষ্ট লেগেছে?
-
এনগেজমেন্ট: গল্পটা কি আপনাকে এক বসায় শেষ করতে বাধ্য করেছে? নাকি পড়তে গিয়ে মনোযোগ হারিয়ে গেছে?
-
অথেন্টিসিটি: পুরো গল্প আর তার চরিত্রদের কি আপনার কাছে 'বাস্তব' বা 'আসল' মনে হয়েছে?
-
ন্যারেটিভ কমপ্লেক্সিটি: গল্পের কাহিনী বা চরিত্রগুলো কি খুবই সাদামাটা, নাকি সেগুলোর মধ্যে জটিলতা ও গভীরতা ছিল?
গবেষকরা প্রথমে এই স্কেলটি সাধারণ মানুষের ওপর প্রয়োগ করে নিশ্চিত হয়েছেন যে এটা আসলেই কাজ করে।
এরপর শুরু হলো আসল খেলা। একটা প্রতিযোগিতা। একদিকে মানুষ লেখক, আরেকদিকে এআই। গবেষকরা প্রথমে রেডিট থেকে মানুষের লেখা প্রচুর গল্প সংগ্রহ করলেন। এই গল্পগুলোকে তারা আবার তিনটি ভাগে ভাগ করলেন।
- সাধারণ মানের লেখা (নোভিস)
- মাঝারি মানের লেখা (ইন্টারমিডিয়েট)
- খুব ভালো মানের লেখা (অ্যাডভান্সড) যেগুলো সবচেয়ে বেশি ভোট পেয়েছে।
এরপর তারা GPT-4 সহ বেশ কয়েকটি শক্তিশালী এআই মডেলকে ডাকলেন। মানুষ এবং এআই উভয়কেই একই গল্পের প্লট বা বিষয়বস্তু (প্রেমিস) দেওয়া হলো এবং তার ওপর ভিত্তি করে ছোট গল্প লিখতে বলা হলো।
এখানেও একটা মজার ব্যাপার আছে। এআই কে দিয়ে ভালো গল্প লেখানোর জন্য গবেষকরা দুটি বিশেষ কৌশল ব্যবহার করেন।
- "রাইটার প্রোফাইল" : এখানে এআই কে বলা হয়, "তুমি একজন বিশ্ববিখ্যাত, পুরস্কারপ্রাপ্ত লেখক। তোমার লেখা মানুষের মন ছুঁয়ে যায়। এখন সেইভাবে লেখো।"
- "প্ল্যান প্লাস রাইট" : এখানে এআই কে বলা হয়, আগে গল্পের চরিত্রগুলোর মনের ভেতরের চিন্তা ভাবনাগুলো পরিকল্পনা করো, তারপর সেই পরিকল্পনা থেকে পুরো গল্পটা লেখো।
ফলাফল
গবেষণায় দেখা গেলো, মানুষের লেখা সবচেয়ে সেরা গল্পগুলোর (রেডিটের অ্যাডভান্সড ক্যাটাগরি) সাথে যখন জিপিটি ফোর এর গল্পের তুলনা করা হলো, তখন দুটি ক্ষেত্রে জিপিটি ফোর সরাসরি জিতে গেছে। মানুষের চেয়েও জিপিটি ফোর এর লেখা গল্পে "এমপ্যাথি" (চরিত্রের জন্য মায়া) এবং "ন্যারেটিভ কমপ্লেক্সিটি" (গল্পের গভীরতা) বেশি ছিল।
আর বাকি তিনটা ক্ষেত্রে অর্থাৎ গল্প পড়ে মনে তোলপাড় হওয়া, গল্প টেনে ধরে রাখা এবং গল্পকে বাস্তব মনে হওয়ার দিক দিয়ে জিপিটি ফোর এর লেখা সেরা মানুষ লেখকদের গল্পের সমান সমান অবস্থানে ছিলো। একবিন্দুও পিছিয়ে ছিলোনা।
ফলাফলের আরও একটা দিক ছিলো। গবেষকরা গল্পগুলো পড়ার পর মানুষদের জিজ্ঞেস করেছিলেন, "বলুন তো, কোনটা মানুষের লেখা আর কোনটা এআই এর?"
মানুষ বেশিরভাগ সময়ই ধরতে পারেনি।
দেখা গেলো, যখন মানুষ জিপিটি ফোরের লেখা গল্প পড়েছে, ৭৩ শতাংশ সময়ই তারা ভুল করে বলেছে যে এটা কোনো মানুষের লেখা। মানুষ যখন কোনো গল্পকে "অতিরিক্ত সৃজনশীল" (হাইলি ক্রিয়েটিভ) বা "খুবই সূক্ষ্ম" (নুয়ান্সড) বলে রায় দিয়েছে, দেখা গেছে সেই গল্পগুলোর বেশিরভাগই জিপিটি ফোরের লেখা। এমনকি, এআই যখন মাঝে মাঝে ছোটখাটো ব্যাকরণগত ভুল করেছে, মানুষ ভেবেছে, "আরে! এটা তো মানুষের লেখার ধরণ। এআই এতো নিখুঁত ভুল করতে পারেনা!"
গবেষকরা আরও এক ধাপ এগিয়ে চিন্তা করলেন। এভাবে মানুষ দিয়ে হাজার হাজার গল্প পরীক্ষা করা তো অনেক সময়সাপেক্ষ আর ব্যয়বহুল। তাই তারা পরীক্ষা করে দেখলেন যে,
একটা এআই কি অন্য এআই এর গল্পের গভীরতা মাপতে পারে?
তারা জিপিটি ফোরও (GPT-4o) এর মতো নতুন মডেলকে বিচারক বানালেন। এবং তাদেরও একটা বিশেষ কৌশল শেখালেন, যার নাম "মিক্সচার অফ পারসোনাস"। অর্থাৎ এআই বিচারককে বলা হলো,
- "তুমি একবার 'সহানুভূতি বিশেষজ্ঞ' হিসেবে গল্পটা পড়ো,
- আরেকবার 'গল্পের জটিলতা বিশেষজ্ঞ' হিসেবে পড়ো।"
এবং এই পদ্ধতিতেও দারুণ কাজ হলো। এআই বিচারকের দেওয়া রেটিং মানুষের দেওয়া রেটিং এর খুব কাছাকাছি ছিলো।
তবে, গবেষকরা নিজেরাই তাদের গবেষণার কিছু সীমাবদ্ধতার কথা স্বীকার করেছেন।
-
প্রথমত, তারা গল্পগুলো নিয়েছিলেন রেডিট থেকে। রেডিটের লেখকরা বেশ ভালো লেখেন, কিন্তু তারা হয়তো তলস্তয় বা হেমিংওয়ের মতো বিশ্বসেরা সাহিত্যিক নন। তাই জিপিটি ফোর রেডিটের লেখকদের হারাতে পারলেও, সেরা সাহিত্যিকদের হারাতে পারবে কিনা তা গ্যারান্টি দেওয়া যাচ্ছেনা।
-
দ্বিতীয়ত, এই পরীক্ষাটি ছিলো শুধু ছোট গল্পের (প্রায় ৪৫০ শব্দ) ওপর। একটা আস্ত বড় উপন্যাস লেখার সময় এআই এই মনস্তাত্ত্বিক গভীরতা ধরে রাখতে পারবে কিনা, তা এখনো অজানা।
-
তৃতীয়ত এবং এইটা আমার অবজারভেশন, মডেল পারছে কিন্তু অবস্যই ইংরেজীতে। বাংলায় যে মডেলের লেখা মানুষের ধারে কাছে যাবে না, এ আর বলে দেওয়ার না।
এই গবেষণার গুরুত্ব কী?
এই গবেষণা প্রমাণ করে যে এআই শুধু তথ্য কপি করা বা তোতাপাখির মতো কথা বলা যন্ত্র নয়। এটি এমন শিল্প তৈরি করতে শুরু করেছে যা মানুষের মনকে গভীরভাবে স্পর্শ করতে পারে। আগে আমরা ভাবতাম, আবেগ, অনুভূতি, সহানুভূতি এগুলো মানুষের একচেটিয়া। এই ধারণাটি হয়তো আর বেশিদিন টিকবে না। লেখালিখি, সিনেমা বা সৃষ্টিশীল যে কোনো মাধ্যমে এআই হয়তো আর শুধু 'সহকারী' থাকবে না, হয়ে উঠবে একজন সত্যিকারের 'শিল্পী'।