AlgorithmData structureProblem SolvingProgramming

ডাটা স্ট্রাকচারঃ ট্রাই ট্রি / প্রিফিক্স ট্রি / রেডিক্স ট্রি

Trie tree Bangla tutorial.

ট্রাই ট্রি ব্যবহার করে আমরা মেমোরি তে কোন স্ট্রিং কে সার্চ করতে পারি। ধরেন আপনাকে একটা সফটওয়্যার তৈরি করতে হবে। যেখানে  আপনাকে প্রতিবার একেকটি ওয়ার্ড কে আগে থেকেই মেমোরিতে থাকা ডিকশনারি তে চেক করে দেখতে হবে যে শব্দটির বানান ঠিক আছে কি না। এর একটা সমাধান হতে পারে যে, আমরা আমাদের ডিকশনারি (অ্যারে) কে আগেই সর্ট করে রাখবো। তারপর প্রতিবার শব্দ নিয়ে বাইনারি সার্চ করে দেখবো শব্দ টি আমাদের ডিকশনারি বা অ্যারে তে আছে কি না। থাকলে ওকে না থাকলে নাই। এই সমস্যাটিকে আমরা আবার ডাটা স্ট্রাকচারের ট্রাই ট্রি / প্রিফিক্স ট্রি / রেডিক্স ট্রি দিয়েও সমাধান করতে পারি।

কেনো ট্রাই ট্রি ব্যবহার করবো?

ট্রাই ট্রি আমরা ব্যবহার কেনো করবো? আমাদের ডিকশনারি থেকে আমরা কিন্তু std::set<string> এবং hash table দিয়েও শব্দ খুজে বের করতে পারি। তবে কেন আমরা ট্রাই ব্যাবহার করবো?

  • ট্রাই O(L) সময় এ insert এবং search করতে পারে, set এবং hash tables এর থেকে দ্রুত।
  • set এবং hash tables শুধু পুরোপুরি মিলে যায় এমন শব্দ খুজতে পারে। কিন্তু ট্রাই ট্রি দ্বারা আমরা সাধারণ প্রিফিক্স, সিঙ্গেল ক্যারেক্টার মিসিং এমন শব্দ গুলোও খুজে বের করতে পারি।

ট্রাই (Trie) শব্দটি এসেছে ইংরেজি “retrieval” থেকে। কারন ট্রাই শুধু প্রিফিক্স ব্যাবহার করেই ডিকশনারি থেকে শব্দ খুজতে পারে। যদিও এর (trie) উচ্চারন অনেকটা ট্রি এর মতন। তবুও যেহেতু ট্রি শব্দটি বহুল ব্যবহৃত তাই একে ট্রাই ই বলা হয়। ট্রাই ট্রি নিয়ে পড়ার আগে লিঙ্কড লিস্ট নিয়ে ধারনা থাকলে উপকার পাবেন। ট্রাই ট্রি এর বৈশিষ্ট্য গুলো হলোঃ

  1. ট্রাই ট্রি এর প্রত্যেকটা নোড কোনও না কোনও শব্দের শেষ অথবা প্রিফিক্স।
  2. রুট নোড একটি খালি স্ট্রিংকে নির্দেশ করে।

ধরেন আপনাকে নিচের মত কিছু শব্দ দেয়া হলো

  1. Bangali
  2. Bangla
  3. Love
  4. Lover
  5. Locker

এখন আমাদের টার্গেট হলো এই পাঁচটি শব্দ কে এমন ভাবে মেমোরি তে রাখা যাতে খুব সহজেই খুজে পেতে পারি। প্রথমেই চিত্রের মাধ্যমে কিছু উপস্থাপন দেখা যাক।

Trie tree structure
শব্দ গুলোকে ট্রাই ট্রি তে সজ্জিত করলে এমন দেখাবে

প্রথমে শুধু আমাদের রুট নোড টি থাকবে। এই নোড টি আমাদের রেফারেন্স নোড হিসেবে কাজ করবে। আমরা আমাদের প্রতিটি প্রসেস এই নোড থেকেই শুর করব।

root node

বামে আমাদের রুট নোড টি দেখতে পাচ্ছেন। এই নোড থেকেই আমাদের সকল প্রসেস চালাতে হবে।

এই নোডের সাথে বাকি নোড গুলো আমরা লিঙ্ক করব। এখন আসেন আমরা আমাদের রুট নোড এর সাথে Bangla শব্দটির ক্যারেক্টার গুলোকে লিঙ্ক করি।

Trie Bangla inserted

উপরের চিত্রে আমরা Bangla শব্দটির অক্ষর গুলোকে রুট নোড এর সাথে লিঙ্ক করে দিয়েছি। হলুদ নোড টি শব্দটির শেষ নির্দেশ করছে। এবার আমরা Bangali শব্দটি কে লিঙ্ক করব।

bangali insertedএখানে লক্ষণীয় বিষয় হলো, আমরা কিন্তু নতুন শব্দটিকে পুনরায় রুট নোড থেকে আনিনি। পূর্বের Bangla এর g থেকে পরের গুলো শুধু রেখে দিয়েছি। কারণ আমরা দেখতে পাচ্ছি যে Bangla এবং Bangali এর মধ্যে Bang এইটুকু প্রিফিক্স সাধারণ অংশ। একই ভাবে,আমরা আমাদের বাকি অংশটুকু তৈরি করার চেষ্টা করব।

right side

এই অংশে আমরা ৩ টি শব্দ কে রেখেছি। হলুদ নোড গুলো এদের শেষ নির্দেশ করছে। শব্দ গুলো হলো, Love,Lover,Lock,Locker. দেখলেন আমরা কি সুন্দরভাবে ৩ টি শব্দকে রেখে দিলাম।

এখন আসেন আমরা আমাদের ট্রাই ট্রিটি ইমপ্লিমেন্ট করার চেস্টা করি


কোড এ ঝাপ দেয়ার আগে আমি এখানে কিছু কথা পরিষ্কার করে দিবো।

  1. প্রত্যেকটি নোডে একটি অ্যারে থাকবে child নামে যা ঐ নোড এর পয়েন্টার টাইপ এবং ৫২ সাইজ এর। কারন আমরা ইংরেজী Capital letter এবং Small letter উভয়টা নিয়েই কাজ করবো।
  2. উক্ত অ্যারেতে আমরা ইনডেক্স করবো নিচের ফাংশন ব্যবহার করে।

  3. আমরা জানি ‘z’-‘A’ = 57 কিন্তু ইংরেজীতে মোট বর্ন আছে ৫২ টি। ৫৭ আসছে কারন ‘a’-‘Z’=7। এখানে ৬ টি বাড়তি আছে। if(ch>='a') id-=6; এখানে আমরা বাড়তি গুলো বাদ দিয়েছি।
  4. Array টির প্রত্যেকটা ইনডেক্স কে NULL তে ইনিশিয়ালাইজ করা হবে।

শুরুতেই আমরা আমাদের নোড এর গঠনটি দেখে নেই।

এখানে আমরা দুইটা Variable নিয়েছি। একটি হলো bool endmark  যা প্রথমে জিরো করা। এইটা ব্যাবহার করে আমরা কোন শব্দ শেষ হয়েছে কি না তা পরিক্ষা করবো। আরেকটি  হলো  node* child[52] = {NULL};  । এই অ্যারেটিতে আমাদের পরবর্তী চাইল্ড এর অ্যাড্রেস জমা রাখবো। বুঝিয়ে বলছি।

ধরেন আমরা Bangla শব্দটিকে ট্রাই এ insert করবো। তাহলে প্রথমে আমরা b এর জন্য রুট নোড এর child অ্যারের getId('B'); = 1 নং ইনডেক্স এ নতুন একটি নোড এর অ্যাড্রেস দিবো। একই ভাবে আমরা a insert করার সময়, b এর child অ্যারের getId('a')  = 26 নং ইনডেক্স এ আরেকটা নোড এর অ্যাড্রেস রাখবো। একই ভাবে বাকি ক্যারেক্টার গুলোও আমরা রেখে দিবো। আশা করি বুঝা গেছে। না বুঝলে সমস্যা নেই। পরের টুকু তে ক্লিয়ার হয়ে যাবে।

শুরুতেই আমরা আমাদের রুট নোডটি তৈরি করে নিবো।

ট্রাই ট্রি তে কোনও শব্দ ইনসার্ট করা

ট্রাই ট্রি তে শব্দ ইনসার্ট (insert) করা খুবই সহজ। আগেই বলেছিলাম আমরা রুট নোড নিজে একটি খালি স্ট্রিং কে উপস্থাপন করবে। আমরা আমাদের কোডটিতে একবার চোখ বুলিয়ে আসি

আমরা উপরের কোডটি দেখি। ২ নং লাইন এ আমরা একটি ভ্যারিয়েবল নিয়েছি crnt নামে। এখানে আমরা বর্তমান নোড হিসেবে রুট নোড কে দিয়ে দিয়েছি। ৩ নং লাইন এ আমরা স্ট্রিং এর ক্যারেক্টার গুলোর উপর লুপ ঘুরিয়েছি।

৪নং লাইন int ascii = s[i]-'A'; এর মাধ্যমে আমরা আমাদের স্ট্রিং এর i তম ক্যারেক্টার s[i] এর জন্য বর্তমান নোড এর child অ্যারের কত তম ইনডেক্স এ তার ভ্যারিয়াবল রাখতে হবে তা বের করেছি এবং মানটি id তে রেখেছি। ৫ নং লাইনে দেখা হয়েছে ঐ ইনডেক্স এ আগেই কোনও নোড অ্যাড্রেস রাখা ছিল কি না। না থাকলে একটি অ্যাড্রেস রেখে দিবো (লাইন ৬) । ৭ নং লাইন এ ঐ অ্যাড্রেস টি কে বর্তমান অ্যাড্রেস করে দিবো crnt এর মাধ্যমে। ৯ নং লাইন টি execute হবে স্ট্রিং টিতে লুপিং শেষ হয়ে গেলে। তখন আমরা বর্তমান নোড এর  crnt->endmark=1;  করে দিয়ে বুঝাবো এই অ্যাড্রেস এর নোডটিতে একটি শব্দ শেষ হয়েছে।

ট্রাই ট্রি তে শব্দ সার্চ করা

এখন আমরা দেখবো ট্রাই ট্রি তে কিভাবে শব্দ সার্চ করতে হয়। এইটা অনেকটা ইনসার্ট করার মতই। একটু পার্থক্য আছে। চলুন কোড টি দেখি।

প্রথমে আমরা আগের মতই স্ট্রিং এর উপর লুপ চালিয়েছি এবং কততম ইনডেক্স এ i তম ক্যারেক্টার এর জন্য নোড টি আছে তা ৪ নং লাইন এ হিসাব করেছি। ৫ নং লাইন এ দেখেছি যে ইনডেক্স এ নোড টি থাকার কথা সেখানে আসলেই কোনও নোড আছে কি না। না থাকার মানে হলো আমাদের বর্তমান ক্যারেক্টার টি আমরা ফেলে আসা প্রিফিক্স এর নিচে রাখি নি। সুতরাং false রিটার্ন করে দিবো। না হলে ৭ নং লাইন এ আমরা ঐ নোড টি কে ভিজিট করবো।

এবার আসি সবার শেষের লাইন এ। এখানে আমরা currentNode->endmark; রিটার্ন করেছি।কারন আমাদের দুইটি শব্দের সাধারন প্রিফিক্স থাকতেই পারে। তাই আমাদের চেক করে দেখতে হয় এখানে কোন শব্দের শেষ হয়েসে কি না। উদাহরণ হসেবে আমরা love আর lover কে নিতে পারি। love এবং lover এ সাধারণ প্রিফিক্স হলো love। কিন্তু যদি আমরা love কে insert না করে, lover কে করতাম এবং search() এর মাধ্যমে love খুজতাম? তখন কিন্তু স্ট্রিং এর উপর লুপ চলাকালীন false রিটার্ন হতো না। কিন্তু যেহেতু আমরা love রাখিনি তাই অবশ্যই false দেয়ার কথা। এই কাজটিই আমরা return currentNode->endmark; এর মধ্যমে করি। যদি এখানে কনোও শব্দের শেষ হয় তবে অবশ্যই endmark এর মান ১ থাকবে।

এখন আসেন আমরা আমাদের সম্পূর্ণ কোড তা দেখে নিই

ট্রাই ট্রি এই টাইম কমপ্লেক্সিটি এবং স্পেস কমপ্লেক্সিটি

ট্রাই ট্রি তে insert এবং search করতে O(L) টাইম লাগে। এখানে L হলো স্ট্রিং এর length। কিন্তু ট্রাই ট্রি এর মেমরি কতখানি লাগবে তা ডিপেন্ড করে ইমপ্লিমেন্টেশন এবং শব্দ গুলোর প্রিফিক্স কতখানি ম্যাচ করে তার উপর।

ট্রাই ট্রি এর ব্যাবহার

  1. ডিকশনারিতে যদি একটি শব্দ খুজতে হয় তখন
  2. মোবাইল ফোন এর নাম্বার এর সাজেশন দেয়ার জন্য
  3. ডিকশনারি তে অনেক গুলো শব্দ থাকে। যদি আমাদের দেখতে হয় একটি শব্দ কয়বার প্রিফিক্স হিসেবে এসেছে।
  4. “Longest common prefix” বের করতে হলে।

কিছু প্রবলেম

আরও পরুন

‌প্রোগ্রা‌মিং: সে‌গমেন্ট ট্রি ডাটা স্ট্রাকচার। রেন্জ কু‌য়ে‌রি: যোগফল

ডাটা স্ট্রাকচার: সেগ‌মেন্ট ট্রি লে‌জি প্রপাগেশন।

ট্রাই (প্রিফিক্স ট্রি/রেডিক্স ট্রি)

মুটামুটি এই ছিলো আমাদের ট্রাই ট্রি নিয়ে আজকের আলোচনা।কনো সমস্যা কমেন্ট এ জানাতে ভুলবেন না। কোড টি হাতে কলমে খাতায় ড্রয়িং করে করে করলে আরও সহজ লাগবে। হাপি কোডিং 🙂 ।

Tags

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Close
Close