নতুন অধ্যায়: রিগ্রেশন মডেলের হাতে খড়ি 🙌

এই অধ্যায়ের আলোচ্য সূচি: ১. চলকের প্রকারভেদ

২. রিগ্রেশন মডেলের প্রকারভেদ ৩. কোন মডেল কখন ব্যবহার করবেন?

ডেটা অ্যানালাইসিসের জগতে যখন প্রথম পা রাখবেন, তখন হয়তো একটু দিশেহারা লাগতে পারে। অসংখ্য তথ্য আর সংখ্যা দেখে মনে হতে পারে, “এগুলো দিয়ে আমি কী করব? কোন পথটা ধরলে আসল উত্তর খুঁজে পাব?” চিন্তা নেই! এই অধ্যায়ে আমরা ডেটা অ্যানালাইসিসের দুটো খুব জরুরি জিনিস—ভেরিয়েবল (Variable) আর রিগ্রেশন মডেল (Regression Model)—খুব সহজ করে বুঝে নেব। এটা এমনভাবে বোঝাব, যেন আপনার একজন বন্ধু আপনাকে পাশে বসিয়ে ধাপে ধাপে সবকিছু বুঝিয়ে দিচ্ছে।

১. ভেরিয়েবল (Variable) কী জিনিস? চলেন একটা গল্প শুনি!

প্রথমে আসি ভেরিয়েবল (Variable)-এর কথায়। ভেরিয়েবল মানে হলো এমন কোনো কিছু যা পরিবর্তনশীল (changeable)। এর মান একরকম থাকে না, পরিস্থিতি অনুযায়ী পাল্টাতে পারে।

উদাহরণস্বরূপ, ধরুন আপনার বয়স (Age)। এটা তো আর সব সময় একই থাকে না, তাই না? প্রতি বছর এটা বাড়ে। আবার, আপনার লিঙ্গ (Gender) (পুরুষ বা মহিলা) এটাও একটা ভেরিয়েবল। অথবা ধরুন, আপনার পছন্দের খাবার (Favorite Food)—এটাও একেকজনের কাছে একেকরকম হতে পারে।

আমরা যখন কোনো গবেষণা করি, তখন আসলে এই বদলাতে থাকা জিনিসগুলোর (ভেরিয়েবল) মধ্যেই লুকিয়ে থাকা সম্পর্কগুলো খুঁজে বের করার চেষ্টা করি। ভেরিয়েবল ছাড়া তো ডেটা (Data) নিয়ে কাজই শুরু করা যায় না! এরা ডেটা জোগাড় করতে, সেগুলোকে গুছিয়ে রাখতে এবং তাদের ভেতরের মজার মজার সম্পর্কগুলো বের করতে আমাদের দারুণভাবে সাহায্য করে। যেমন, একটি জাপানিজ কোম্পানি তার কোয়ালিটি কন্ট্রোল (Quality Control) ডেটা বিশ্লেষণে ভেরিয়েবল ব্যবহার করে, যেখানে পণ্যের ত্রুটির সংখ্যা একটি ভেরিয়েবল।

২. ভেরিয়েবল (Variable) কত রকম হয়? চেনেন তো এদের?

ভেরিয়েবলদের আমরা তাদের স্বভাব অনুযায়ী প্রধানত দুটো বড় দলে ভাগ করতে পারি: সংখ্যাসূচক ভেরিয়েবল (Numerical Variables) আর শ্রেণীগত ভেরিয়েবল (Categorical Variables)। এই ভাগগুলো বোঝা খুব জরুরি, কারণ আপনি কোন ধরনের ভেরিয়েবল নিয়ে কাজ করছেন তার ওপর নির্ভর করবে আপনি ডেটা থেকে কী ধরনের উত্তর বের করতে পারবেন।

২.১. সংখ্যাসূচক ভেরিয়েবল (Numerical Variables)

এই ভেরিয়েবলগুলো সংখ্যা দিয়ে মাপা যায়। যেমন, তাপমাত্রা বা ওজন। এদের আবার দুটো মজার ধরন আছে:

২.১.১. ডিসক্রিট নিউমেরিক্যাল ভেরিয়েবল (Discrete Numerical Variables):

কী? এগুলো হলো সেইসব ভেরিয়েবল যাদের মান শুধু পূর্ণসংখ্যা হয়। মানে, আপনি এদেরকে গুনতে পারবেন (countable), কিন্তু ভাঙা সংখ্যা (দশমিক বা decimal) আসবে না।

উদাহরণ: আপনার পরিবারে কতজন সদস্য সংখ্যা (Number of Family Members) (২ জন, ৩ জন), আপনার ঘরে কয়টা জানালা (Number of Windows) আছে (৪টা), বা একটি নির্দিষ্ট দিনে হাসপাতালে কয়জন রোগী ভর্তি হয়েছে (Number of Patients Admitted)। আপনি তো আর বলতে পারবেন না, আমার ২.৫ জন সদস্য আছে, তাই না? এগুলোতে কোনো ভাঙা সংখ্যা আসে না।

কেন দরকারি? এগুলো কোনো কিছুর সঠিক সংখ্যা বা পরিমাণ বোঝায়।

২.১.২. কন্টিনিউয়াস নিউমেরিক্যাল ভেরিয়েবল (Continuous Numerical Variables):

কী? এই ভেরিয়েবলগুলোর মান একটি নির্দিষ্ট সীমার মধ্যে যেকোনো কিছু হতে পারে, এমনকি দশমিক মানও। এগুলোকে গণনা করা হয় না, বরং পরিমাপ করা হয় (measurable)।

উদাহরণ: আপনার উচ্চতা (Height) (৫.৭ ফিট), আপনার ওজন (Weight) (৬৮.২ কেজি), তাপমাত্রা (Temperature) (৩০.৫ ডিগ্রি সেলসিয়াস), বা কোনো কাজ শেষ করতে কত সময় (Time Taken) লাগল (২.৩ ঘণ্টা)। জাপানের টোকিওর দৈনিক তাপমাত্রা (Tokyo Daily Temperature) একটি কন্টিনিউয়াস নিউমেরিক্যাল ভেরিয়েবল।

কেন দরকারি? এগুলো নিখুঁত পরিমাপ প্রদান করে এবং ডেটার ছোট ছোট পার্থক্যও ধরতে সাহায্য করে।

২.২. শ্রেণীগত ভেরিয়েবল (Categorical Variables)

এই ভেরিয়েবলগুলো সংখ্যা দিয়ে প্রকাশ করা যায় না, বরং এদেরকে বিভিন্ন দল বা ভাগে ভাগ করা হয়। যেমন, আপনার লিঙ্গ বা রক্তের গ্রুপ। এদেরও কয়েকটা ধরন আছে:

২.২.১. নমিনাল ভেরিয়েবল (Nominal Variables):

কী? এই ভেরিয়েবলগুলোর বিভিন্ন দলের মধ্যে কোনো ছোট-বড় সম্পর্ক বা ক্রম (order) নেই। শুধু তাদের নামের পার্থক্য (different names) আছে।

উদাহরণ: আপনার লিঙ্গ (Gender) (পুরুষ/মহিলা), আপনার রক্তের গ্রুপ (Blood Group) (A, B, AB, O), বা আপনি কোন ধর্ম (Religion) পালন করেন (ইসলাম, হিন্দু, খ্রিস্টান)। আপনি তো আর বলতে পারবেন না পুরুষ মহিলার চেয়ে বড় বা ছোট, তাই না? জাপানের বিভিন্ন শহরের নাম (Names of Japanese Cities) একটি নমিনাল ভেরিয়েবল।

কেন দরকারি? এগুলো ডেটাকে বিভিন্ন অর্থপূর্ণ গ্রুপে ভাগ করতে সাহায্য করে, কিন্তু এই গ্রুপগুলোর মধ্যে কোনো স্বাভাবিক অর্ডার (natural order) থাকে না।

.২.২. অর্ডিনাল ভেরিয়েবল (Ordinal Variables):

কী? এই ভেরিয়েবলগুলোর দলের মধ্যে একটি নির্দিষ্ট ক্রম বা র‍্যাঙ্ক (rank) থাকে। মানে, আপনি বলতে পারবেন কোনটি বেশি বা কোনটি কম, কিন্তু তাদের মধ্যে পরিমাণের পার্থক্য (difference in quantity) সমান নাও হতে পারে।

উদাহরণ: আপনার শিক্ষাগত যোগ্যতা (Educational Qualification) (প্রাথমিক, মাধ্যমিক, উচ্চশিক্ষা)। এখানে একটি ক্রম আছে: প্রাথমিক শিক্ষার চেয়ে মাধ্যমিক শিক্ষা বেশি, আর মাধ্যমিকের চেয়ে উচ্চশিক্ষা বেশি। কিন্তু প্রাথমিক থেকে মাধ্যমিক-এর যে পার্থক্য, তা মাধ্যমিক থেকে উচ্চশিক্ষা-এর পার্থক্যের সমান নাও হতে পারে। আরেকটি উদাহরণ: আপনি কোনো খাবার খেয়ে কতটা সন্তুষ্ট (Satisfaction Level) (খুব অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, খুব সন্তুষ্ট)।

কেন দরকারি? এই ভেরিয়েবলগুলো ডেটাকে একটি অর্থপূর্ণ ক্রমে সাজাতে এবং একটি নির্দিষ্ট স্তরের পার্থক্য বোঝাতে সাহায্য করে।

২.২.৩. বাইনারি ভেরিয়েবল (Binary Variables / Dichotomous Variables):

কী? এটি শ্রেণীগত ভেরিয়েবলেরই একটি বিশেষ ধরন, যেখানে শুধু দুটো সম্ভাব্য ফলাফল (two possible outcomes) থাকে। প্রায়শই এই ফলাফলগুলোকে ০ আর ১ দিয়ে বোঝানো হয়।

উদাহরণ: আপনি পরীক্ষায় পাস (Pass) করেছেন না ফেল (Fail) করেছেন, আপনি একটি নির্দিষ্ট রোগের রোগী (Patient) না সুস্থ (Healthy), কোনো কাজ হ্যাঁ (Yes) না না (No)। যেমন, একটি জাপানিজ গাড়িতে 'এয়ারব্যাগ আছে/নেই' (Airbag: Yes/No) একটি বাইনারি ভেরিয়েবল।

কেন দরকারি? যখন দুটো বিকল্পের মধ্যে সিদ্ধান্ত নিতে হয় বা কোনো ঘটনার ঘটার সম্ভাবনা (probability) বুঝতে হয়, তখন এই ভেরিয়েবলগুলো দারুণ কাজের।

যদি কোনো শ্রেণীগত ভেরিয়েবলের দুইটার বেশি বিভাগ থাকে এবং তাদের মধ্যে কোনো ক্রম না থাকে (যেমন: গাড়ির রঙ - লাল, নীল, সবুজ), তাহলে তাকে নন-বাইনারি ভেরিয়েবল (Non-Binary Variables) বলা হয়।

৩. রিগ্রেশন মডেল (Regression Model) কী? আপনার ডেটা গল্পের 'প্লাট'!

ভেরিয়েবল কী বুঝলাম, এখন আসি রিগ্রেশন মডেল (Regression Model)-এর কথায়। এটা হলো পরিসংখ্যানের এমন এক শক্তিশালী টুল (tool) যা আপনাকে দুটো বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করতে সাহায্য করে। সহজ করে বললে, এটা আপনাকে দেখায় যে একটি চরিত্র (যাকে আমরা ডিপেন্ডেন্ট ভেরিয়েবল - Dependent Variable বলি) কীভাবে অন্য এক বা একাধিক চরিত্রের (যাদেরকে আমরা ইনডিপেন্ডেন্ট ভেরিয়েবল - Independent Variable বলি) কারণে প্রভাবিত হয়। এই মডেল ব্যবহার করে আমরা কোনো কিছুর ভবিষ্যদ্বাণীও (prediction) করতে পারি।

৩.১. ডিপেন্ডেন্ট ভেরিয়েবল (Dependent Variable): এটা হলো সেই ভেরিয়েবল যার ফলাফল আমরা জানতে চাই বা যার ভবিষ্যদ্বাণী করতে চাই। এর মান ইনডিপেন্ডেন্ট ভেরিয়েবলের পরিবর্তনের ওপর নির্ভর করে। যেমন, আপনি যদি 'পরীক্ষার রেজাল্টের' উপর 'পড়ার সময়ের' প্রভাব দেখতে চান, তাহলে 'পরীক্ষার রেজাল্ট' হলো ডিপেন্ডেন্ট ভেরিয়েবল। এটা আপনার গবেষণার মূল 'ফলাফল' (outcome)।

৩.২. ইনডিপেন্ডেন্ট ভেরিয়েবল (Independent Variable): এটা সেই ভেরিয়েবল যা ডিপেন্ডেন্ট ভেরিয়েবলের মানকে প্রভাবিত করে। এটি 'কারণ' (cause) হিসেবে কাজ করে। উপরের উদাহরণে, 'পড়ার সময়' হলো ইনডিপেন্ডেন্ট ভেরিয়েবল। এটা সেই ভেরিয়েবল যা আমরা পরীক্ষা করে দেখি ডিপেন্ডেন্ট ভেরিয়েবলের উপর তার কী প্রভাব আছে।

রিগ্রেশন মডেলগুলো কেন দরকারি জানেন? কারণ এরা আপনাকে ভেরিয়েবলগুলোর মধ্যে সম্পর্ক কেমন (পজিটিভ নাকি নেগেটিভ, স্ট্রং নাকি উইক) তা বুঝতে সাহায্য করে। আর এরা ভবিষ্যদ্বাণীও করতে পারে! যেমন, গত কয়েক বছরের বিক্রি ডেটা ব্যবহার করে আগামী মাসের বিক্রি কত হতে পারে, তার ভবিষ্যদ্বাণী করা যায়। ব্যবসা থেকে শুরু করে চিকিৎসা—সবখানে এরা দারুণভাবে কাজে লাগে। এমনকি জাপানের একটি কারখানায় কাইজেন (Kaizen) পদ্ধতিতে উৎপাদনশীলতা (productivity) বাড়াতেও রিগ্রেশন মডেল ব্যবহার করা যেতে পারে।

৪. বিভিন্ন ধরনের রিগ্রেশন মডেল (Regression Model): কখন কাকে ডাকবেন?

রিগ্রেশন মডেল বেছে নেওয়ার আসল টিপস হলো আপনার ডিপেন্ডেন্ট ভেরিয়েবল (Dependent Variable) টা কোন ধরনের তা দেখা। আপনার ডিপেন্ডেন্ট ভেরিয়েবলের স্বভাব অনুযায়ীই আপনি সঠিক মডেল বেছে নেবেন। চলুন, একে একে দেখে নিই কোন পরিস্থিতিতে কোন মডেল ব্যবহার করবেন:

৪.১. সিম্পল লিনিয়ার রিগ্রেশন (Simple Linear Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা একটি সংখ্যাসূচক ভেরিয়েবল (Numerical Variable) হয় (যেমন: আপনার মাসিক আয়, বা কোনো দেশের জিডিপি)।

এবং আপনার মাত্র একটি ইনডিপেন্ডেন্ট ভেরিয়েবল (Independent Variable) থাকে, যেটা নিজেও সংখ্যাসূচক (যেমন: আপনার শিক্ষাগত বছর বা বয়স)।

আর আপনার অনুমান থাকে যে, এই দুটো ভেরিয়েবলের মধ্যে একটি সরাসরি সরলরেখার মতো সম্পর্ক (Linear Relationship) আছে।

'সরলরেখার মতো সম্পর্ক' মানে কী?

ভাবুন তো, আপনার একটি আইসক্রিমের দোকান আছে। আপনি লক্ষ্য করেছেন যে, যেদিন তাপমাত্রা বেশি থাকে, সেদিন আপনার দোকানে আইসক্রিম বিক্রিও বেশি হয়, আর লাভও বেশি হয়। আবার, যেদিন তাপমাত্রা কম থাকে, সেদিন বিক্রিও কম হয়।

এখানে 'দিনের তাপমাত্রা' হলো ইনডিপেন্ডেন্ট ভেরিয়েবল, আর 'আইসক্রিম বিক্রির লাভ' হলো ডিপেন্ডেন্ট ভেরিয়েবল।

যদি এই দুজনের সম্পর্কটা সরলরেখার মতো হয়, তাহলে ব্যাপারটা এমন হবে: তাপমাত্রা ১ ডিগ্রি সেলসিয়াস বাড়লে আপনার লাভ বাড়ে ১০০ টাকা। তাহলে ২ ডিগ্রি বাড়লে বাড়বে ২০০ টাকা, ৩ ডিগ্রি বাড়লে ৩০০ টাকা। দেখছেন? তাপমাত্রা যত বাড়ছে, লাভ ঠিক একই হারে (প্রতি ডিগ্রিতে ১০০ টাকা করে) বাড়ছে। এই সম্পর্কটাকে যদি আপনি একটি গ্রাফে (Graph) আঁকেন, তাহলে ডেটা পয়েন্টগুলো মিলে একটি সোজা লাইন (Straight Line) তৈরি করবে। এটাই হলো 'সরলরেখার মতো সম্পর্ক'।

যদি সম্পর্কটা এমন হতো যে, তাপমাত্রা অনেক বেশি বেড়ে গেলে আর তেমন লাভ বাড়ে না, বরং একটু কমে যায় (কারণ অতিরিক্ত গরমে মানুষ আর বেরই হতে চায় না), তাহলে কিন্তু সেটা আর সরলরেখা হতো না, একটি বাঁকা রেখা দেখা যেত। সেটাকে আমরা বলি নন-লিনিয়ার (Non-linear) সম্পর্ক।

কেন দরকারি? এই মডেলটা দুটো সংখ্যাসূচক ভেরিয়েবলের মধ্যে সবচেয়ে ভালো 'সরলরেখা'টা এঁকে তাদের সম্পর্ক বোঝায়। এটা বোঝা এবং এর ফলাফল ব্যাখ্যা করা খুবই সহজ।

কাঠামো ও ফর্মুলা:

আমরা এভাবে লিখি: Y = B0 + B1*X + Error

এখানে:

Y হলো ডিপেন্ডেন্ট ভেরিয়েবল (যা আমরা ভবিষ্যদ্বাণী করতে চাই)।

X হলো ইনডিপেন্ডেন্ট ভেরিয়েবল।

B0 হলো Y-ইন্টারসেপ্ট (যখন X শূন্য, তখন Y-এর একটি আনুমানিক মান)।

B1 হলো ইনডিপেন্ডেন্ট ভেরিয়েবলের সহগ (coefficient), যা দেখায় X-এর প্রতি একক পরিবর্তনের জন্য Y-এর কতটুকু পরিবর্তন হবে।

Error হলো ত্রুটি বা মডেলের ব্যাখ্যা করতে না পারা অংশ।

৪.২. মাল্টিপল লিনিয়ার রিগ্রেশন (Multiple Linear Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা একটি সংখ্যাসূচক ভেরিয়েবল (Numerical Variable) হয় (যেমন: বাড়ির দাম)।

কিন্তু আপনার একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল (Multiple Independent Variables) থাকে (যেমন: বাড়ির আকার, ঘরের সংখ্যা, এলাকার স্কুল)। এই ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো সংখ্যাসূচক বা বাইনারি (যেমন, গ্যারেজ আছে/নেই) হতে পারে।

আপনি ধরে নেন যে, এই ইনডিপেন্ডেন্ট ভেরিয়েবলগুলোর সাথে ডিপেন্ডেন্ট ভেরিয়েবলের রৈখিক সম্পর্ক আছে।

কেন দরকারি? বাস্তব জীবনে তো একটি জিনিস শুধু একটি কারণে হয় না, তাই না? যেমন, একটি বাড়ির দাম শুধু তার আকারেই নির্ভর করে না, আরও অনেক কিছুতে নির্ভর করে। এই মডেলটা আপনাকে একই সাথে অনেকগুলো ইনডিপেন্ডেন্ট ভেরিয়েবলের প্রভাব বিশ্লেষণ করতে সাহায্য করে। এটা দেখায় যে, অন্যান্য কারণগুলো একই রেখে একটি নির্দিষ্ট ইনডিপেন্ডেন্ট ভেরিয়েবল কীভাবে ডিপেন্ডেন্ট ভেরিয়েবলকে প্রভাবিত করে।

কাঠামো ও ফর্মুলা:

একাধিক ভেরিয়েবলের জন্য ফর্মুলাটা একটু বড় হয়: Y = B0 + B1*X1 + B2*X2 + ... + Bk*Xk + Error

এখানে:

Y হলো ডিপেন্ডেন্ট ভেরিয়েবল।

X1, X2, ..., Xk হলো বিভিন্ন ইনডিপেন্ডেন্ট ভেরিয়েবল।

B0 হলো Y-ইন্টারসেপ্ট।

B1, B2, ..., Bk হলো প্রতিটি ইনডিপেন্ডেন্ট ভেরিয়েবলের জন্য সহগ (coefficients), যা তাদের প্রভাব বোঝায়।

Error হলো ত্রুটি পদ।

৪.৩. লজিস্টিক রিগ্রেশন (Logistic Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা বাইনারি (Binary) হয় (যেমন: কোনো রোগী সুস্থ হবে নাকি অসুস্থ থাকবে, কোনো কাস্টমার পণ্যটা কিনবে নাকি কিনবে না, আপনি নির্বাচনে জিতবেন নাকি হারবেন)।

আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।

কেন দরকারি? সাধারণ লিনিয়ার রিগ্রেশন এখানে কাজ করে না, কারণ সেটা ০ থেকে ১-এর বাইরেও মান ভবিষ্যদ্বাণী করতে পারে, যা সম্ভাবনার ক্ষেত্রে ঠিক নয়। লজিস্টিক রিগ্রেশন আপনাকে একটি ঘটনার ঘটার সম্ভাবনা (probability) কতটুকু, তা বের করে দেয়, যা সবসময় ০ থেকে ১-এর মধ্যেই থাকে। এটা সাধারণত কোনো ঘটনা 'ঘটবে' বা 'ঘটবে না'—এই ধরনের প্রশ্নগুলোর উত্তর দিতে সাহায্য করে।

কাঠামো ও ফর্মুলা:

লজিস্টিক রিগ্রেশন সরাসরি সম্ভাবনা (Y) ভবিষ্যদ্বাণী না করে, একটি ঘটনার ঘটার লগ-অডস (log-odds) ভবিষ্যদ্বাণী করে। এর ফর্মুলা এরকম: ln(p/(1-p)) = B0 + B1*X1 + ... + Bk*Xk

এখানে:

p হলো ঘটনাটি ঘটার সম্ভাবনা।

ln(p/(1-p)) মানে হলো লগ-অডস।

বাকি B0, B1*X1 ইত্যাদি আগের মতোই।

৪.৪. অর্ডিনাল লজিস্টিক রিগ্রেশন (Ordinal Logistic Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা ক্রমবাচক (Ordinal Categorical) হয় (যেমন: কোনো ফিল্ম দেখে আপনার রেটিং - 'খুব খারাপ', 'সাধারণ', 'ভালো'; বা কোনো রেস্টুরেন্টের সার্ভিস - 'কম', 'মাঝারি', 'অনেক')।

আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।

কেন দরকারি? এটি লজিস্টিক রিগ্রেশনেরই একটি বিশেষ সংস্করণ যা ক্রমবাচক ডেটার জন্য বিশেষভাবে তৈরি। এটা ডেটার ভেতরের ক্রমকে সম্মান করে এবং সেই অনুযায়ী ফলাফল বিশ্লেষণ করে। এটা আপনাকে দেখায় যে কীভাবে ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো ক্রমবাচক ফলাফলের বিভিন্ন স্তরের ওপর প্রভাব ফেলে।

৪.৫. মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশন (Multinomial Logistic Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা নামমাত্র (Nominal Categorical) হয় এবং এর দুইটার বেশি ভাগ থাকে (যেমন: আপনার পছন্দের রঙ - লাল, নীল, সবুজ; বা আপনি কোন মাধ্যমে যাতায়াত করেন - বাস, ট্রেন, প্রাইভেট কার)।

আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।

কেন দরকারি? যখন আপনার ডিপেন্ডেন্ট ভেরিয়েবলের একাধিক শ্রেণী থাকে এবং তাদের মধ্যে কোনো নির্দিষ্ট ক্রম থাকে না, তখন এই মডেলটা প্রতিটি শ্রেণীর তুলনামূলক সম্ভাবনা অনুমান করতে সাহায্য করে। এটা একটি 'বেসলাইন' শ্রেণীর সাপেক্ষে প্রতিটি অন্য শ্রেণীর সম্ভাবনা তুলনা করে।

৪.৬. নন-লিনিয়ার রিগ্রেশন (Non-linear Regression)

কখন ব্যবহার করবেন?

যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা সংখ্যাসূচক (Numerical) হয়।

কিন্তু আপনি নিশ্চিত যে, ডিপেন্ডেন্ট আর ইনডিপেন্ডেন্ট ভেরিয়েবলের মধ্যে সম্পর্কটা সরলরেখার মতো নয় (Non-linear Relationship), বরং একটি বাঁকা রেখার মতো।

কেন দরকারি? লিনিয়ার রিগ্রেশন শুধু সরলরেখার সম্পর্ক ধরতে পারে। কিন্তু অনেক সময় বাস্তব ডেটায় সম্পর্ক বক্ররেখামূলক হয় (যেমন, একটি নির্দিষ্ট বিন্দুর পর প্রভাব কমে যায় বা বেড়ে যায়)। নন-লিনিয়ার মডেলগুলো এই ধরনের জটিল বাঁকা সম্পর্ককে আরও ভালোভাবে ডেটার সাথে মেলাতে পারে।

৫. কিছু জরুরি কথা যা নতুনরা প্রায়ই ভুলে যায়

চলুন, ভেরিয়েবল আর রিগ্রেশন মডেলের আলোচনা তো হলো। এবার কিছু টুকিটাকি বিষয় নিয়ে কথা বলি, যেগুলো একজন নতুন গবেষক বা শিক্ষার্থী হিসেবে আপনার ডেটা অ্যানালাইসিসের সময় প্রায়ই মনে না-ও থাকতে পারে, কিন্তু এগুলো খুবই জরুরি।

৫.১. মডেলের অনুমান (Assumptions of the Model) - যেন ডেটা আর মডেলের বোঝাপড়া

আপনি যখন একটি রিগ্রেশন মডেল ব্যবহার করবেন, তখন সেই মডেলটার কিছু নিজস্ব শর্ত থাকে। এগুলোকে আমরা বলি 'অনুমান' বা অ্যাসাম্পশন (Assumptions)। অনেকটা এমন যে, আপনি যদি একটি নির্দিষ্ট ধরনের জুতো পরতে চান, তাহলে আপনার পা'টা ওই জুতোর মাপে হতে হবে, তাই না? রিগ্রেশন মডেলের ক্ষেত্রেও ডেটাকে কিছু নির্দিষ্ট শর্ত পূরণ করতে হয়।

যেমন: লিনিয়ার রিগ্রেশনের একটি বড় শর্ত হলো, ডেটার মধ্যে যেন একটি সরলরেখার সম্পর্ক থাকে। আবার, ডেটার এরর (Error) বা ভুলগুলো যেন এলোমেলো হয়, কোনো প্যাটার্ন (Pattern) না থাকে।

কেন জরুরি? যদি আপনার ডেটা এই শর্তগুলো পূরণ না করে, তাহলে মডেলের ফলাফলগুলো ভুল হতে পারে বা সেগুলো বিশ্বাসযোগ্য হবে না। তাই মডেল চালানোর আগে এই অনুমানগুলো পরীক্ষা করা খুব দরকারি। বিভিন্ন স্ট্যাটিস্টিক্যাল সফটওয়্যারে (Statistical Software) (যেমন, R, Python, SPSS) এগুলো পরীক্ষা করার জন্য টুল (Tool) আছে।

৫.২. আউটলায়ার্স (Outliers) - ডেটার মধ্যে লুকিয়ে থাকা 'অদ্ভুত' মান

আউটলায়ার্স (Outliers) হলো আপনার ডেটাসেটের এমন কিছু মান, যেগুলো বাকি সব মান থেকে বেশ আলাদা বা অস্বাভাবিক (abnormal)। ধরুন, ক্লাসের সব শিক্ষার্থীর বয়স ১৫-১৬ বছর, কিন্তু একজন শিক্ষার্থীর বয়স ৫০ বছর—এই ৫০ হলো একটি আউটলায়ার।

কেন জরুরি? এই অদ্ভুত মানগুলো আপনার রিগ্রেশন মডেলের ফলাফলকে মারাত্মকভাবে প্রভাবিত করতে পারে, এমনকি ভুল দিকেও নিয়ে যেতে পারে। মডেল চালানোর আগে এদের খুঁজে বের করা এবং প্রয়োজনে এদেরকে বাদ দেওয়া বা ঠিক করার ব্যবস্থা নেওয়া খুব জরুরি।

৫.৩. মাল্টিকোলিনিয়ারিটি (Multicollinearity) - ইনডিপেন্ডেন্ট ভেরিয়েবলদের 'বন্ধুত্ব' যখন সমস্যার কারণ হয়

এটা একটি মজার কিন্তু জটিল সমস্যা, যেটা মাল্টিপল লিনিয়ার রিগ্রেশনের ক্ষেত্রে বেশি দেখা যায়। ধরুন, আপনার কাছে দুটো ইনডিপেন্ডেন্ট ভেরিয়েবল আছে—'পড়ার সময়' আর 'পরীক্ষার আগের রাতে ঘুমের সময়'। এখন যদি দেখেন যে, যারা বেশি পড়ে, তারা আবার কম ঘুমায় (মানে, দুটো ভেরিয়েবল একে অপরের সাথে খুব বেশি সম্পর্কযুক্ত), তাহলে মডেলের জন্য আলাদাভাবে তাদের প্রভাব বোঝা কঠিন হয়ে যায়। এটাই হলো মাল্টিকোলিনিয়ারিটি (Multicollinearity)।

কেন জরুরি? মাল্টিকোলিনিয়ারিটি থাকলে আপনার মডেলের ফলাফলগুলো অস্থিতিশীল হতে পারে, অর্থাৎ ইনডিপেন্ডেন্ট ভেরিয়েবলগুলোর প্রভাব ঠিকভাবে বোঝা নাও যেতে পারে। এটা পরীক্ষা করার জন্য VIF (Variance Inflation Factor) নামে একটি পদ্ধতি আছে। যদি এই সমস্যা ধরা পড়ে, তাহলে হয়তো কিছু ইনডিপেন্ডেন্ট ভেরিয়েবল বাদ দিতে হতে পারে বা তাদের একত্রিত করতে হতে পারে।

৫.৪. মডেল ফিট (Model Fit) এবং গুডনেস-অফ-ফিট (Goodness-of-Fit) - আপনার মডেল কতটা ভালো কাজ করছে?

আপনি একটি মডেল বেছে নিলেন, ডেটা দিয়ে চালালেন। কিন্তু কীভাবে বুঝবেন যে আপনার মডেলটা ডেটাগুলোকে কতটা ভালোভাবে ব্যাখ্যা করতে পারছে? এখানেই আসে মডেল ফিট (Model Fit) আর গুডনেস-অফ-ফিট (Goodness-of-Fit)-এর ধারণা।

কীভাবে বুঝবেন? লিনিয়ার রিগ্রেশনের জন্য R-squared (আর-স্কয়ার্ড) নামে একটি মান আছে, যেটা দেখায় আপনার ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো মিলে ডিপেন্ডেন্ট ভেরিয়েবলের পরিবর্তনের কত অংশ ব্যাখ্যা করতে পারছে। লজিস্টিক রিগ্রেশনের জন্য AIC (Akaike Information Criterion) বা BIC (Bayesian Information Criterion)-এর মতো কিছু টুল আছে, যা বিভিন্ন মডেলের মধ্যে তুলনা করতে সাহায্য করে।

কেন জরুরি? এই পরিমাপগুলো আপনাকে বলবে যে আপনার মডেলটা কতটা কার্যকর। একটি ভালো ফিট করা মডেলের ফলাফল সাধারণত বেশি বিশ্বাসযোগ্য হয়।

পরিশেষে, এই অধ্যায়ে বর্ণিত ধারণাগুলো আপনার ডেটা অ্যানালাইসিসের ভিত্তি তৈরি করবে। মনে রাখবেন, সঠিক মডেল নির্বাচন আপনার গবেষণার ফলাফলকে আরও বিশ্বাসযোগ্য এবং নির্ভুল করে তুলবে। ডেটা নিয়ে কাজ করতে গিয়ে নতুন কিছু শেখার এই যাত্রা আপনার জন্য ফলপ্রসূ হোক! এরপরও যদি আপনার কোনো নির্দিষ্ট ডেটা বা মডেল নিয়ে প্রশ্ন থাকে, তাহলে একজন অভিজ্ঞ পরিসংখ্যানবিদ বা আপনার শিক্ষকের সাথে আলোচনা করতে দ্বিধা করবেন না।

📞 Contact Info

নতুন অধ্যায়: রিগ্রেশন মডেলের হাতে খড়ি 🙌

Posted by Kabbo Premium Books

Post a Comment

0 Comments

Total Pageviews

🔎 Medicine Drug Search

📢 Medical News

🏆 Popular Posts

IBM SPSS 25

🔰জার্মানির যে যে বিশ্ববিদ্যালয়ে আইইএলটিএস ছাড়াই ভর্তির সুযোগ🔰

গবেষণাপত্র লিখবেন যেভাবে!

নতুন অধ্যায়: অ্যাবস্ট্র্যাক্ট (Abstract) - আপনার গবেষণার দারুণ এক ঝলক!

For academicians, and researchers, here is a collection of 20 Open Access Journals.

✔️ About Us

Most Popular Series

Most Popular Post

IBM SPSS 25

🔰জার্মানির যে যে বিশ্ববিদ্যালয়ে আইইএলটিএস ছাড়াই ভর্তির সুযোগ🔰

গবেষণাপত্র লিখবেন যেভাবে!

নতুন অধ্যায়: অ্যাবস্ট্র্যাক্ট (Abstract) - আপনার গবেষণার দারুণ এক ঝলক!

For academicians, and researchers, here is a collection of 20 Open Access Journals.

📌 Popular Writer

Ad Code

📞 Contact Info

নতুন অধ্যায়: রিগ্রেশন মডেলের হাতে খড়ি 🙌

Posted by Kabbo Premium Books

You may like these posts

Post a Comment

0 Comments

💬 Social Plugin

Total Pageviews

🔎 Medicine Drug Search

📢 Medical News

🏆 Popular Posts

✔️ About Us

Most Popular Series

Most Popular Post

📌 Popular Writer