All That Glitters is Not Novel: Plagiarism in AI Generated Research

AI Plagiarism Research Paper Summary ACL2025
All That Glitters is Not Novel: Plagiarism in AI Generated Research

আজকে যে পেপারটা পড়েছি, আমার মতে সেইটা আমারমতই যারা নতুন নতুন গবেষণার দুনিয়ায় এসেছে সবার বুঝা দরকার। পেপার NLP নিয়ে হলেও ACL এর আউটস্ট্যান্ডিং পেপার এর খেতাব পাওয়া এই গবেষণাপত্র দেখায় যে, জিপিটি বা জেমিনি বা এরকম যেকোন আর্টিফিসিয়াল ইন্টেলিজেন্স দিয়ে আপনি যখন আপনার পেপার লিখিয়ে নিবেন তখন ঐ পেপার এর বিশাল অংশ আসলে প্লেজারিজম। কিন্তু বলবেন, আরে ভাই লিখাইলাম, টার্ন-ইট-ইন এ দিলাম। ৫% - ৬% প্লেজারিজম দেখায়। মজার বিষয় হল, AI গুলোকে তৈরিই করা হয়েছে ঘুরিয়ে কথা বলার জন্য। আর টার্ণ-ইট-ইন এতটাও বুদ্ধিমান না যে ঘুরিয়ে বলা সব কথা ধরে ফেলবে। আসুন দেখি গবেষকরা কি বলেন,

এআই এর লেখা পেপার নিয়ে আজকের আলচ্য গবেষকদের একটা খটকা থেকেই যায়। এই এআই দিয়ে বানানো আইডিয়াগুলো কি আসলেও 'নতুন'? নাকি সব পুরনো চাল নতুন করে রোদে শুকাতে দেওয়া হচ্ছে? চকচক করলেই যেমন সোনা হয় না, তেমনই 'নতুন' বললেই কি সব নতুন হয়ে যায়?

সম্প্রতি একদল গবেষক ঠিক এই খটকাটা নিয়েই একটা দারুণ কাজ করেছেন। তারা দেখতে চাইলেন, এআই এর এই 'নতুন' আইডিয়াগুলোর মধ্যে আসলেও কতটা নতুনত্ব আছে, আর কতটা পুরনো কাজের নকল।

এই গবেষণার আসল মজাটা হলো এর পদ্ধতিতে। গবেষকরা যেভাবে এই চুরিটা ধরেছেন, সেটাই একটা আর্ট। চলেন, ধাপে ধাপে দেখি তারা কী করলেন।

আগে কী হতো?

আগে যখন এআই দিয়ে বানানো কোনো পেপার যাচাই করা হতো, তখন বড় বড় প্রফেসর বা বিশেষজ্ঞদের ডেকে এনে বলা হতো, "দেখুন তো স্যার, এই আইডিয়াটা কেমন? নতুন মনে হয়? কাজের?" এটা একটা সমস্যা। কারণ যখন কাউকে 'নতুন কিছু' খুঁজতে বলা হয়, তখন তার মস্তিষ্ক সেভাবেই কাজ করে। সে ধরে নেয় জিনিসটা নতুন, শুধু সেটার মান যাচাই করতে হবে।

এই গবেষকরা ঠিক উল্টো কাজটা করলেন। তারা ভাবলেন, "চোরকে ধরতে হলে তো চোরের মতোই ভাবতে হবে।" তারা একটা দারুণ খেলা খেললেন। তারা প্রথমে পঞ্চাশটা এআই দিয়ে তৈরি করা গবেষণাপত্র নিলেন। এই পেপারগুলো এমন এআই দিয়ে বানানো যারা দাবি করে তারা 'নতুন' আইডিয়া তৈরি করতে পারে। তারা ১৩ জন বিশেষজ্ঞকে ডাকলেন। এই বিশেষজ্ঞরা তাদের ফিল্ডে সেরা, তারা জানেন এই বিষয়ে আগে কী কী কাজ হয়েছে।

'সিচুয়েশনাল লজিক'

গবেষকরা এখানে খেলা ঘুরিয়ে দিলেন। তারা ওই ১৩ জন বিশেষজ্ঞকে বললেন না যে, "দেখুন তো পেপারগুলো নতুন কিনা।" তারা ঠিক উল্টোটা বললেন। তারা বললেন, "আপনাদের আমরা পঞ্চাশটা পেপার দিচ্ছি। আপনারা ধরে নিন এই পঞ্চাশটা পেপারই চুরি করা বা নকল। আপনাদের কাজ হলো আসল পেপারটা বা উৎসটা খুঁজে বের করা। প্রমাণ করেন যে এটা নকল।"

দেখেন, মানসিকতার কী দারুণ পরিবর্তন! যখন আপনাকে 'নতুন কিছু' খুঁজতে বলা হয়, আর যখন 'চোর ধরতে' বলা হয়, আপনার মস্তিষ্ক দুইভাবে কাজ করে। গবেষকরা এই দ্বিতীয় পদ্ধতিটা কাজে লাগালেন। বিশেষজ্ঞরা তখন গোয়েন্দার মতো করে পেপারগুলো পড়া শুরু করলেন, মিল খুঁজতে লাগলেন।

বিশেষজ্ঞরা যখন কোনো পেপারকে সন্দেহ করলেন আর বললেন, "আরে, এই পেপারটার আইডিয়া তো অমুক পেপারের মতো লাগছে," গবেষকরা সেখানেই থেমে যাননি। এটা তো শুধু বিশেষজ্ঞের মতামত হলো।

তারা সাথে সাথে সেই 'আসল' পেপারটার লেখকদের খুঁজে বের করলেন। তাদের ইমেইল করলেন। তাদেরকে এআই এর বানানো পেপারটা পাঠিয়ে জিজ্ঞেস করলেন, "দেখেন তো ভাই, আপনার কি মনে হয় এটা আপনার কাজ নকল করেছে?" মানে একেবারে সরাসরি লেখকের কাছ থেকেই নিশ্চিত হওয়া। এর চেয়ে বড় প্রমাণ আর কী হতে পারে!

এর পাশাপাশি, তারা এই পেপারগুলো টার্নইটিন এর মতো বিখ্যাত সব প্লেজিয়ারিজম চেকার সফটওয়্যার দিয়েও পরীক্ষা করলেন। দেখতে চাইলেন সফটওয়্যার কি এই চুরি ধরতে পারে?

বিশেষজ্ঞরা যা খুঁজে পেলেন তা রীতিমতো ভয়ঙ্কর। ওই পঞ্চাশটা পেপারের মধ্যে প্রায় চব্বিশ শতাংশ, মানে প্রতি চারটার একটা পেপার, সরাসরি নকল বা একাধিক পুরনো পেপারের আইডিয়া হুবহু মেরে দেওয়া। মানে গবেষণার পদ্ধতিটা এক, শুধু শব্দগুলো পাল্টে ফেলা হয়েছে। আরও বত্রিশ শতাংশ পেপারের সাথে পুরনো কাজের আংশিক মিল পাওয়া গেছে। মানে আইডিয়ার কিছু অংশ নকল, কিছু অংশ নতুন। খুব সামান্য কিছু পেপারকেই তারা 'সম্পূর্ণ নতুন' বা মৌলিক বলেছেন।

আর সেই যে আসল লেখকদের ইমেইল করা হয়েছিল? তারাও নিশ্চিত করলেন যে হ্যাঁ, তাদের কাজই নকল করা হয়েছে। তাদের পদ্ধতিকেই এআই নতুন ভাবে উপস্থাপন করেছে।

কিন্তু সবচেয়ে বড় ধাক্কাটা এলো অন্য জায়গায়। মনে আছে সফটওয়্যার দিয়ে পরীক্ষা করার কথা? টার্নইটিন এর মতো নামকরা সব সফটওয়্যার এই 'আইডিয়া চুরি' গুলো ধরতে পুরোপুরি ব্যর্থ। তাদের সাফল্যের হার শূন্য শতাংশ! একটাও ধরতে পারেনি।

কেন এমন হলো?

কারণ এআই খুব চালাক। সে তো আর আপনার আমার মতো শব্দ ধরে ধরে কপি পেস্ট করে না। সে পুরো গবেষণার 'পদ্ধতি' বা 'আইডিয়া' টাকে বুঝে নেয়, তারপর সেটাকে সম্পূর্ণ নতুন শব্দ দিয়ে, নতুন করে গুছিয়ে লেখে। ওপর থেকে দেখলে মনে হবে দুটো আলাদা জিনিস, কিন্তু ভেতরে ইঞ্জিন একই। এই চালাকি ধরার ক্ষমতা সফটওয়্যারের নেই।

এই গবেষণাটা আমাদের একটা বড়সড় ঝাঁকুনি দিয়ে গেলো। আমরা এআই এর বানানো জিনিস দেখে যতটা মুগ্ধ হচ্ছি, তার অনেকটাই হয়তো পুরনো কাজের চতুর সংস্করণ। অ্যাকাডেমিক জগতে বা গবেষণার দুনিয়ায় এটা একটা বিশাল চ্যালেঞ্জ। এখন শুধু লেখা চুরি নয়, 'আইডিয়া' চুরি হচ্ছে কিনা, সেটা ধরার জন্য আমাদের নতুন করে ভাবতে হবে। সফটওয়্যার দিয়ে আর কাজ হচ্ছে না, মানুষের গভীর বিশ্লেষণ আর ওই 'চোর ধরার' মানসিকতাটাই আসল।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

All That Glitters is Not Novel: Plagiarism in {AI} Generated Research

Gupta, Tarun and Pruthi, Danish · 2025

Automating scientific research is considered the final frontier of science. Recently, several papers claim autonomous research agents can generate novel research ideas. Amidst the prevailing optimism,...

Read the paper