مهارت‌های آماری برای مهندس یادگیری ماشین
۱۴۰۰/۰۶/۱۵ تاریخ انتشار

معادلات، فرمول‌ها و قوانین ریاضی بسیار زیادی بر دنیای یادگیری ماشین حاکم هستند که شاید تسلط بر تمامی آن‌ها امکان‌پذیر نباشد، با این‌حال، تمرکز بر یادگیری آن‌ها کمک می‌کند تا وظایف محوله را به شکل بهتری انجام دهید. در این مطلب با 16 مورد مهمی آشنا می‌شوید که پیشنهاد می‌کنیم به عنوان یک مهندس یادگیری ماشین یا مهندس داده کاوی به فکر یادگیری آن‌ها باشید. 

1. آزمون جایگشتی

آزمون جایگشتی نوعی آزمون فرض آماری است که در آن توزیع آماره آزمون تحت فرضیه تهی، با محاسبه تمام مقادیر ممکن از آماره آزمون تحت بازآورایی‌های برچسب‌های نقاط مشاهده ‌شده به‌دست می‌آید. به عبارت دیگر، روشی که در آن رفتارها در یک طراحی آزمایش به موضوعات نسبت داده می‌شوند، در آنالیز طراحی بازتاب داده می‌شود. اگر تحت فرضیه تهی، برچسب‌ها قابل جابجایی باشند، آزمون‌های حاصل سطوح اهمیت دقیقی را ارایه می‌کند که امکان مشاهده متغیرهای تصادفی تعویض‌پذیر را فراهم می‌کنند. می‌توان بر مبنای این آزمون‌ها، فاصله اطمینان را به‌دست آورد. 

2. آزمون فرض آماری

آزمون فرض آماری (Statistical hypothesis testing) روشی برای بررسی ادعاها یا فرض‌ها درباره پارامترهای توزیع در جوامع آماری است. اگر مهندسی بخواهد بر مبنای داده‌های نمونه‌ای نظر دهد که آیا طول عمر متوسط نوع خاصی لاستیک چرخ ماشین حداقل ۲۲۰۰۰ مایل است یا نه، اگر یک کارشناس کشاورزی بخواهد بر مبنای آزمایش‌هایی نظر دهد که آیا نوع خاصی کود کشاورزی محصول لوبیای بیشتری نسبت به کود دیگر تولید می‌کند یا نه و اگر یک سازنده محصولات دارویی بخواهد بر مبنای نمونه‌هایی نظر دهد که آیا ۹۰ درصد کلیه بیمارانی که داروی جدیدی را مصرف می‌کنند از بیماری خاصی بهبود خواهند یافت یا نه، همه این مسائل را می‌توان به زبان آزمون فرض‌های آماری برگرداند. یک فرض آماری، حکم یا حدسی درباره توزیع یک یا چند متغیر تصادفی است. اگر یک فرض آماری توزیع را کاملاً مشخص کند، آن‌را فرض ساده و در غیر این صورت آن را فرض مرکب می‌نامند. فرض‌هایی که به صورت یک رابطه تساوی بیان می‌شوند فرض‌های ساده نامیده می‌شوند ولی ممکن است این فرض‌ها به صورت نامساوی یا فرض‌های مرکب نیز باشند.

3. آمار با ثبات

آمار باثبات راهی برای دستیابی به روش‌های پایه آماری است به طوری که برآوردها تحت تاثیر مقادیر نامتعارف بسیار بزرگ یا کوچک قرار نگیرد. در واقع آمار باثبات، آماری با اجرای خوب برای داده‌ای است که از طیف گسترده توزیع احتمال به‌دست می‌آید، به ویژه برای توزیع‌هایی که نرمال نیستند. روش‌های آماری مقاوم برای حل بسیاری از مسائل رایج مانند تخمین پارامتر مکان، پارامتر مقیاس و رگرسیون خطی توسعه یافته‌اند. یکی از اهداف ایجاد روش‌های آماری این است که نتایج به‌طور بی‌جهت تحت تاثیر داده پرت قرار نمی‌گیرند. هدف دیگر فراهم‌کردن روش‌هایی با کارایی خوب در زمانی است که خروج‌های اندکی از توزیع‌های پارامتری وجود دارد. برای مثال، روش‌های مقاوم برای ترکیب دو توزیع نرمال با انحرافات استاندارد مختلف به خوبی جواب می‌دهند.

4. احتمال پیشین

احتمال پیشین یک توزیع احتمال است که از استدلال استقرایی مشتق شده‌است. یکی از راه‌های استخراج احتمالات پیشین استفاده از اصل بی تفاوتی است. اصل بی تفاوتی بیان می‌کند در حالتی‌که N رویداد متقابلا منحصر و جامع داشته باشیم و هر یک از آن‌ها رخداد محتملی باشد، در این‌صورت احتمال رخداد یکی از آن‌ها برابر با یک تقسیم بر N است. به همین ترتیب احتمال رخداد یک مجموعه از K رویداد برابر با K تقسیم بر N است. یک نقطه ضعف تعریف احتمالات به شکل بالا این است که روش فوق تنها قابل اجرا روی مجموعه محدودی از رویدادها است. در استنباط بیزی عبارات توزیع پیشین بی دانش یا توزیع پیشین عینی اشاره به انتخاب‌های خاصی از احتمالات پیشین دارد. توجه داشته باشید که احتمال پیشین مفهوم گسترده‌تری است. 

5. توزیع احتمال پسین

احتمال پسین برای یک متغیر تصادفی همان احتمال شرطی است که براساس شواهد قبلی در مورد رخداد آن پیشامد محاسبه می‌شود. این احتمال شرطی را  احتمال پسین (Posterior Probability) می‌نامند، با این‌حال، احتمال کسب چنین شواهدی نیز به احتمال پیشین (Prior Probability)  نسبت داده می‌شود. شبیه به تمایز مفهوم پیشین و پسین در فلسفه، در استنباط بیزی نیز یک توزیع پیشین نشان دهنده دانش عمومی در مورد توزیع داده‌ها قبل از ساخت یک استنتاج است، در حالی که یک توزیع پسین نشان دهنده دانشی است که شامل نتایج حاصل از ساخت یک استنتاج است در آمار بیزی، توزیع احتمال پسین (Posterior probability distribution) یک کمیت احتمالاتی توزیع احتمالی پس از مشاهده شواهد (داده) است. به عبارت دیگر، توزیع احتمال پسین احتمال شرطی آن کمیت به شرط دیدن داده است.

6. بارده مورد قبول

در آمار بیزی، بازه مورد قبول (یا بازه مورد قبول بیزی) بازه‌ای در دامنه یک توزیع احتمال پسین است که در تخمین بازه‌ای به کار می‌رود. تعمیم به مسائل چندمتغیره، همان ناحیه بیزی است. بازه‌های معتبر مشابه بازه اطمینان در استنباط فراوانی‌گرایانه اند، اگرچه فلسفه وجودی آن‌ها متفاوت است. بازه‌های بیزی، همانند پارامتر تخمین‌زده‌شده و ثابت، متغیرهای تصادفی اند، در حالی که بازه‌های اطمینان، با مرزهایشان به عنوان متغیر تصادفی و با پارامتر به عنوان مقداری ثابت برخورد می‌کنند.

7. برآوردگر بیزی

در الگوریتم‌های تخمینی و نظریه تصمیم، یک برآوردگر بیزی یا یک عملگرد بیزی یک برآوردگر یا قانون تصمیم است که امید ریاضی پسین از یک تابع زیان را به حداقل می‌رساند. به‌طور معادل، این برآوردگر، امید پسین یک تابع مطلوب را به حداکثر می‌رساند. یک راه مناسب دیگر برای تدوین یک برآوردگر در داخل آمار بیزی، عبارتست از برآوردگر بیشه‌گر احتمال پسین. در آمار، برآوردگر بیشینه‌گر احتمال پسین (Maximum a posteriori estimation) یک پارامتر، مد توزیع احتمال پسین آن پارامتر است.

8. توزیع T-Student

در هنگام تعیین تقریبی میانگین نمونه‌های برداشته شده از یک متغیر تصادفی، توزیع تی-استودنت (Student's t-distribution) مطرح می‌شود. این توزیع، اساس آزمونی به نام تست تی است که مقدار اطمینان از تفاوت دو متغیر تصادفی را از روی نمونه‌هایشان اعلام می‌کند. آزمون تی-استیودنت (T student) برای ارزیابی میزان هم‌قوارگی یا یکسان بودن و نبودن میانگین نمونه‌ای با میانگین جامعه در حالتی به کار می‌رود که انحراف معیار جامعه مجهول باشد چون توزیع t در مورد نمونه‌های کوچک با استفاده از درجات آزادی تعدیل می‌شود، می‌توان از این آزمون برای نمونه‌های بسیار کوچک استفاده نمود.

9. آزمون مربع کای

ازمون مربع کای یا (Chi-squared test) برای ارزیابی میزان ارتباط متغیرهای اسمی نسبت به هم به کار می‌رود. برای تعیین این‌که بدانیم آیا از نظر آماری اختلاف معنی داری بین مقادیر فراوانی مشاهدات و فراوانی مورد انتظاردر یک یا چند گروه از جدول توافقی (دوطرفه) وجود دارد از آزمون کای-۲ پیرسون استفاده می‌شود. در کاربردهای معمول این آزمون ، مشاهدات به کلاس‌های جدا از هم تقسیم می‌شوند. 

10. آزمون یو مان-ویتنی

آزمون مان-ویتنی (Mann–Whitney) در گروه آزمون‌های غیر پارامتری است و برای سنجش تفاوت میان نمونه‌ها به‌کار می‌رود. در این آزمون رتبه‌بندی انجام می‌شود و محاسبات روی رتبه‌های انجام می‌شود. هنگام تهیه گزارش آمار توصیفی که همراه نتایج آزمون تفاوت غیر پارامتری آورده می‌شوند باید میانه و دامنه تغییر (نه میانگین و انحراف استاندارد) را به عنوان اندازه‌های گرایش مرکزی و پراکندگی ارائه کنید. میانه و دامنه تغییر توصیف‌گرهای مناسب‌تری برای آزمون‌های غیرپارامتری هستند چون این آزمون‌ها از توزیع طبیعی برخوردار نیستند و توزیع آزاد دارند. آزمون مان-ویتنی معادل غیر پارامتری آزمون تی مستقل است و برای مقایسه داده‌هایی که از طرح‌های گروه‌های مستقل به دست می‌آیند مورد استفاده قرار می‌گیرد. هرگاه شرایط استفاده از آزمون‌های پارامتری در متغیرها موجود نباشد، یعنی متغیرها پیوسته و نرمال نباشند از این آزمون استفاده می‌شود. دو نمونه باید مستقل بوده و هر دو کوچکتر از ۱۰ مورد باشند. در صورت بزرگتر بودن از ۱۰ مورد باید از آماره‌های Z استفاده کرد (در محاسبات کامپیوتری، تبدیل به Z به طور خودکار انجام می‌شود). در این آزمون شکل توزیع، پیش فرضی ندارد یعنی می‌تواند نرمال یا غیر نرمال باشد.

11. آزمون ویلکاکسون

آزمون ویلکاکسون (Wilcoxon signed-rank test) از آزمون‌های آماری ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته با مقیاس رتبه‌ای به کار می‌رود. این آزمون مناسب طرح‌های ماقبل و مابعد است (یک نمونه در دو موقعیت مختلف)، یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت میان رتبه‌ها را در نظر می‌گیرد بنابراین متغیرها می‌توانند دارای جوابهای متفاوت یا فاصله‌ای باشند. این آزمون متناظر با آزمون t دو نمونه‌ای وابسته‌است و در صورت وجود نداشتن شرایط آزمون t جانشین خوبی برای آن است. نمونه‌های به کار برده شده در این آزمون باید نسبت به سایر صفت هایشان جور شده (جفت شده) باشند.

12. آزمون کولموگروف–اسمیرنف 

آزمون کولموگروف–اسمیرنف (Kolmogorov–Smirnov test) از آزمون‌های آماری ناپارامتری است. در انتخاب یک آزمون آماری برای تحقیق، باید تصمیم بگیریم که آیا از آزمون‌های پارامتریک استفاده کنیم یا آزمون‌های ناپارامتریک. یکی از اصلی‌ترین ملاک‌ها برای این انتخاب، انجام آزمون کولموگروف-اسمیرنوف است. آزمون کولموگروف-اسمیرنوف، نرمال نبودن توزیع داده‌ها را نشان می‌دهد. یعنی اینکه توزیع یک صفت در یک نمونه را (مثلا سن در بین ۱۰۰ نفر نمونه پرستاران) با توزیعی که برای جامعه، مفروض است (برای مثال سن تمام پرستاران) مقایسه می‌کند. اگر تست کولموگروف- اسمیرنوف رد شود، داده‌ها دارای توزیع نرمال می‌باشند، و امکان استفاده از آزمون‌های آماری پارمتریک برای تحقیق، وجود دارد. بالعکس، اگر تست کولموگروف-اسمیرنوف تأیید شود، یعنی داده‌ها دارای توزیع نرمال نیستند، بنابراین باید از آزمون‌های ناپارمتریک در تحقیق استفاده کنیم.

13. احتمالات بیزی

احتمالات بیزی، استدلال بیزی، روشی بر پایه احتمالات برای استنتاج کردن است. اساس این روش، بر این اصل، استوار است که برای هر کمیتی، یک توزیع احتمال، وجود دارد که با مشاهده یک داده جدید، و استدلال در مورد توزیع احتمال آن، می‌توان تصمیمات بهینه‌ای اتخاذ کرد. این قضیه از آن جهت، مفید است که می‌توان از طریق آن، احتمال یک پیشامد را با مشروط کردن نسبت به وقوع یا عدم وقوع یک پیشامد دیگر، محاسبه کرد. در بسیاری از حالت‌ها، محاسبه احتمال یک پیشامد به صورت مستقیم، کاری دشوار است. با استفاده از این قضیه و مشروط کردن پیشامد مورد نظر نسبت به پیشامد دیگر، می‌توان احتمال مورد نظر را محاسبه کرد.

14. آزمون خطای استاندارد میانگین

آزمون Z نوعی آزمون آماری است که توزیع آماره‌ی آزمون تحت فرضیه‌ی صفر می‌تواند به صورت یک توزیع نرمال تخمین زده‌شود. به علت قضیه حد مرکزی بیشتر آماره‌های آزمون برای تعداد زیاد نمونه، به صورت تقریبی با توزیع نرمال قابل تخمین زدن هستند. برای هر سطحی معنادار بودن آزمون Z یک مقدار بحرانی دارد (برای مثال ۱/۹۶ برای ۵٪ دو طرفه) که نسبت به آزمون t راحتی بیشتری ایجاد می‌کند زیرا در آزمون t برای هر تعداد نمونه یک مقدار بحرانی مشخص وجود دارد. برای همین در بیشتر آزمون‌های آماری در صورتی که واریانس جمعیت مشخص باشد یا تعداد نمونه‌ها زیاد باشد به‌راحتی می‌توان به صورت تقریبی از آزمون Z استفاده کرد. در صورتی که واریانس جمعیت مشخص نباشد (و لازم باشد که از روی نمونه‌ها به‌دست آورده شود) یا تعداد نمونه‌ها کم باشد (کم‌تر از ۳۰)، آزمون t مناسب‌تر از این آزمون است.

15. توزیع نمونه‌ای

توزیع نمونه‌ای (Sample distribution) در آمار به توزیع تک تک مشاهدات در یک نمونه اشاره دارد. 

16. توزیع نمونه‌گیری

به توزیع یک آماره، توزیع نمونه‌برداری یا توزیع نمونه‌گیری (Sampling distribution) می‌گویند. به‌طور معمول، از توزیع نمونه‌گیری زمانی استفاده می‌شود که بیش از یک نمونه تصادفی ساده از اندازه جمعیت یکسان از داده‌ها در اختیار داریم و این نمونه‌ها ارتباط با یکدیگر ندارند و مستقل هستند. در این حالت، اگر فردی در یک نمونه قرار بگیرد، احتمال دارد در نمونه بعدی نیز وجود داشته باشد. 

17. واریانس

واریانس (Variance)، نوعی سنجش پراکندگی است. مقدار واریانس با میانگین‌گیری از مربع فاصله مقدار محتمل یا مشاهده شده با مقدار مورد انتظار محاسبه می‌شود. در مقایسه با میانگین می‌توان گفت که میانگین مکان توزیع را نشان می‌دهد، در حالی که واریانس مقیاسی است که نشان می‌دهد که داده‌ها حول میانگین چگونه پخش شده‌اند. واریانس کمتر بدین معنا است که انتظار می‌رود که اگر نمونه‌ای از توزیع مزبور انتخاب شود مقدار آن به میانگین نزدیک باشد. یکای واریانس مربع یکای کمیت اولیه است. ریشه دوم واریانس که انحراف معیار نامیده می‌شود دارای واحدی یکسان با متغیر اولیه است.

کلام آخر

همان‌گونه که مشاهده کردید در دنیای ریاضیات و آمار نکات بسیار زیادی وجود دارد که بیشتر شرکت‌ها و آموزشگاه‌ها در زمان آموزش یادگیری ماشین به آن‌ها اشاره نمی‌کنند، زیرا مباحث تخصصی و فنی هستند و البته امکان پرداختن به آن‌ها به لحاظ بازه زمانی فراهم نیست. بنابراین این وظیفه خودتان است که به فکر یادگیری و تسلط بر مباحث ریاضی باشید. 

به این مطلب چند ستاره می‌دهید؟(امتیاز: 4.5 - رای: 1)

ثبت نظر تعداد نظرات: 0 تعداد نظرات: 0
usersvg