معادلات، فرمولها و قوانین ریاضی بسیار زیادی بر دنیای یادگیری ماشین حاکم هستند که شاید تسلط بر تمامی آنها امکانپذیر نباشد، با اینحال، تمرکز بر یادگیری آنها کمک میکند تا وظایف محوله را به شکل بهتری انجام دهید. در این مطلب با 16 مورد مهمی آشنا میشوید که پیشنهاد میکنیم به عنوان یک مهندس یادگیری ماشین یا مهندس داده کاوی به فکر یادگیری آنها باشید.
1. آزمون جایگشتی
آزمون جایگشتی نوعی آزمون فرض آماری است که در آن توزیع آماره آزمون تحت فرضیه تهی، با محاسبه تمام مقادیر ممکن از آماره آزمون تحت بازآوراییهای برچسبهای نقاط مشاهده شده بهدست میآید. به عبارت دیگر، روشی که در آن رفتارها در یک طراحی آزمایش به موضوعات نسبت داده میشوند، در آنالیز طراحی بازتاب داده میشود. اگر تحت فرضیه تهی، برچسبها قابل جابجایی باشند، آزمونهای حاصل سطوح اهمیت دقیقی را ارایه میکند که امکان مشاهده متغیرهای تصادفی تعویضپذیر را فراهم میکنند. میتوان بر مبنای این آزمونها، فاصله اطمینان را بهدست آورد.
2. آزمون فرض آماری
آزمون فرض آماری (Statistical hypothesis testing) روشی برای بررسی ادعاها یا فرضها درباره پارامترهای توزیع در جوامع آماری است. اگر مهندسی بخواهد بر مبنای دادههای نمونهای نظر دهد که آیا طول عمر متوسط نوع خاصی لاستیک چرخ ماشین حداقل ۲۲۰۰۰ مایل است یا نه، اگر یک کارشناس کشاورزی بخواهد بر مبنای آزمایشهایی نظر دهد که آیا نوع خاصی کود کشاورزی محصول لوبیای بیشتری نسبت به کود دیگر تولید میکند یا نه و اگر یک سازنده محصولات دارویی بخواهد بر مبنای نمونههایی نظر دهد که آیا ۹۰ درصد کلیه بیمارانی که داروی جدیدی را مصرف میکنند از بیماری خاصی بهبود خواهند یافت یا نه، همه این مسائل را میتوان به زبان آزمون فرضهای آماری برگرداند. یک فرض آماری، حکم یا حدسی درباره توزیع یک یا چند متغیر تصادفی است. اگر یک فرض آماری توزیع را کاملاً مشخص کند، آنرا فرض ساده و در غیر این صورت آن را فرض مرکب مینامند. فرضهایی که به صورت یک رابطه تساوی بیان میشوند فرضهای ساده نامیده میشوند ولی ممکن است این فرضها به صورت نامساوی یا فرضهای مرکب نیز باشند.
3. آمار با ثبات
آمار باثبات راهی برای دستیابی به روشهای پایه آماری است به طوری که برآوردها تحت تاثیر مقادیر نامتعارف بسیار بزرگ یا کوچک قرار نگیرد. در واقع آمار باثبات، آماری با اجرای خوب برای دادهای است که از طیف گسترده توزیع احتمال بهدست میآید، به ویژه برای توزیعهایی که نرمال نیستند. روشهای آماری مقاوم برای حل بسیاری از مسائل رایج مانند تخمین پارامتر مکان، پارامتر مقیاس و رگرسیون خطی توسعه یافتهاند. یکی از اهداف ایجاد روشهای آماری این است که نتایج بهطور بیجهت تحت تاثیر داده پرت قرار نمیگیرند. هدف دیگر فراهمکردن روشهایی با کارایی خوب در زمانی است که خروجهای اندکی از توزیعهای پارامتری وجود دارد. برای مثال، روشهای مقاوم برای ترکیب دو توزیع نرمال با انحرافات استاندارد مختلف به خوبی جواب میدهند.
4. احتمال پیشین
احتمال پیشین یک توزیع احتمال است که از استدلال استقرایی مشتق شدهاست. یکی از راههای استخراج احتمالات پیشین استفاده از اصل بی تفاوتی است. اصل بی تفاوتی بیان میکند در حالتیکه N رویداد متقابلا منحصر و جامع داشته باشیم و هر یک از آنها رخداد محتملی باشد، در اینصورت احتمال رخداد یکی از آنها برابر با یک تقسیم بر N است. به همین ترتیب احتمال رخداد یک مجموعه از K رویداد برابر با K تقسیم بر N است. یک نقطه ضعف تعریف احتمالات به شکل بالا این است که روش فوق تنها قابل اجرا روی مجموعه محدودی از رویدادها است. در استنباط بیزی عبارات توزیع پیشین بی دانش یا توزیع پیشین عینی اشاره به انتخابهای خاصی از احتمالات پیشین دارد. توجه داشته باشید که احتمال پیشین مفهوم گستردهتری است.
5. توزیع احتمال پسین
احتمال پسین برای یک متغیر تصادفی همان احتمال شرطی است که براساس شواهد قبلی در مورد رخداد آن پیشامد محاسبه میشود. این احتمال شرطی را احتمال پسین (Posterior Probability) مینامند، با اینحال، احتمال کسب چنین شواهدی نیز به احتمال پیشین (Prior Probability) نسبت داده میشود. شبیه به تمایز مفهوم پیشین و پسین در فلسفه، در استنباط بیزی نیز یک توزیع پیشین نشان دهنده دانش عمومی در مورد توزیع دادهها قبل از ساخت یک استنتاج است، در حالی که یک توزیع پسین نشان دهنده دانشی است که شامل نتایج حاصل از ساخت یک استنتاج است در آمار بیزی، توزیع احتمال پسین (Posterior probability distribution) یک کمیت احتمالاتی توزیع احتمالی پس از مشاهده شواهد (داده) است. به عبارت دیگر، توزیع احتمال پسین احتمال شرطی آن کمیت به شرط دیدن داده است.
6. بارده مورد قبول
در آمار بیزی، بازه مورد قبول (یا بازه مورد قبول بیزی) بازهای در دامنه یک توزیع احتمال پسین است که در تخمین بازهای به کار میرود. تعمیم به مسائل چندمتغیره، همان ناحیه بیزی است. بازههای معتبر مشابه بازه اطمینان در استنباط فراوانیگرایانه اند، اگرچه فلسفه وجودی آنها متفاوت است. بازههای بیزی، همانند پارامتر تخمینزدهشده و ثابت، متغیرهای تصادفی اند، در حالی که بازههای اطمینان، با مرزهایشان به عنوان متغیر تصادفی و با پارامتر به عنوان مقداری ثابت برخورد میکنند.
7. برآوردگر بیزی
در الگوریتمهای تخمینی و نظریه تصمیم، یک برآوردگر بیزی یا یک عملگرد بیزی یک برآوردگر یا قانون تصمیم است که امید ریاضی پسین از یک تابع زیان را به حداقل میرساند. بهطور معادل، این برآوردگر، امید پسین یک تابع مطلوب را به حداکثر میرساند. یک راه مناسب دیگر برای تدوین یک برآوردگر در داخل آمار بیزی، عبارتست از برآوردگر بیشهگر احتمال پسین. در آمار، برآوردگر بیشینهگر احتمال پسین (Maximum a posteriori estimation) یک پارامتر، مد توزیع احتمال پسین آن پارامتر است.
8. توزیع T-Student
در هنگام تعیین تقریبی میانگین نمونههای برداشته شده از یک متغیر تصادفی، توزیع تی-استودنت (Student's t-distribution) مطرح میشود. این توزیع، اساس آزمونی به نام تست تی است که مقدار اطمینان از تفاوت دو متغیر تصادفی را از روی نمونههایشان اعلام میکند. آزمون تی-استیودنت (T student) برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونهای با میانگین جامعه در حالتی به کار میرود که انحراف معیار جامعه مجهول باشد چون توزیع t در مورد نمونههای کوچک با استفاده از درجات آزادی تعدیل میشود، میتوان از این آزمون برای نمونههای بسیار کوچک استفاده نمود.
9. آزمون مربع کای
ازمون مربع کای یا (Chi-squared test) برای ارزیابی میزان ارتباط متغیرهای اسمی نسبت به هم به کار میرود. برای تعیین اینکه بدانیم آیا از نظر آماری اختلاف معنی داری بین مقادیر فراوانی مشاهدات و فراوانی مورد انتظاردر یک یا چند گروه از جدول توافقی (دوطرفه) وجود دارد از آزمون کای-۲ پیرسون استفاده میشود. در کاربردهای معمول این آزمون ، مشاهدات به کلاسهای جدا از هم تقسیم میشوند.
10. آزمون یو مان-ویتنی
آزمون مان-ویتنی (Mann–Whitney) در گروه آزمونهای غیر پارامتری است و برای سنجش تفاوت میان نمونهها بهکار میرود. در این آزمون رتبهبندی انجام میشود و محاسبات روی رتبههای انجام میشود. هنگام تهیه گزارش آمار توصیفی که همراه نتایج آزمون تفاوت غیر پارامتری آورده میشوند باید میانه و دامنه تغییر (نه میانگین و انحراف استاندارد) را به عنوان اندازههای گرایش مرکزی و پراکندگی ارائه کنید. میانه و دامنه تغییر توصیفگرهای مناسبتری برای آزمونهای غیرپارامتری هستند چون این آزمونها از توزیع طبیعی برخوردار نیستند و توزیع آزاد دارند. آزمون مان-ویتنی معادل غیر پارامتری آزمون تی مستقل است و برای مقایسه دادههایی که از طرحهای گروههای مستقل به دست میآیند مورد استفاده قرار میگیرد. هرگاه شرایط استفاده از آزمونهای پارامتری در متغیرها موجود نباشد، یعنی متغیرها پیوسته و نرمال نباشند از این آزمون استفاده میشود. دو نمونه باید مستقل بوده و هر دو کوچکتر از ۱۰ مورد باشند. در صورت بزرگتر بودن از ۱۰ مورد باید از آمارههای Z استفاده کرد (در محاسبات کامپیوتری، تبدیل به Z به طور خودکار انجام میشود). در این آزمون شکل توزیع، پیش فرضی ندارد یعنی میتواند نرمال یا غیر نرمال باشد.
11. آزمون ویلکاکسون
آزمون ویلکاکسون (Wilcoxon signed-rank test) از آزمونهای آماری ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته با مقیاس رتبهای به کار میرود. این آزمون مناسب طرحهای ماقبل و مابعد است (یک نمونه در دو موقعیت مختلف)، یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت میان رتبهها را در نظر میگیرد بنابراین متغیرها میتوانند دارای جوابهای متفاوت یا فاصلهای باشند. این آزمون متناظر با آزمون t دو نمونهای وابستهاست و در صورت وجود نداشتن شرایط آزمون t جانشین خوبی برای آن است. نمونههای به کار برده شده در این آزمون باید نسبت به سایر صفت هایشان جور شده (جفت شده) باشند.
12. آزمون کولموگروف–اسمیرنف
آزمون کولموگروف–اسمیرنف (Kolmogorov–Smirnov test) از آزمونهای آماری ناپارامتری است. در انتخاب یک آزمون آماری برای تحقیق، باید تصمیم بگیریم که آیا از آزمونهای پارامتریک استفاده کنیم یا آزمونهای ناپارامتریک. یکی از اصلیترین ملاکها برای این انتخاب، انجام آزمون کولموگروف-اسمیرنوف است. آزمون کولموگروف-اسمیرنوف، نرمال نبودن توزیع دادهها را نشان میدهد. یعنی اینکه توزیع یک صفت در یک نمونه را (مثلا سن در بین ۱۰۰ نفر نمونه پرستاران) با توزیعی که برای جامعه، مفروض است (برای مثال سن تمام پرستاران) مقایسه میکند. اگر تست کولموگروف- اسمیرنوف رد شود، دادهها دارای توزیع نرمال میباشند، و امکان استفاده از آزمونهای آماری پارمتریک برای تحقیق، وجود دارد. بالعکس، اگر تست کولموگروف-اسمیرنوف تأیید شود، یعنی دادهها دارای توزیع نرمال نیستند، بنابراین باید از آزمونهای ناپارمتریک در تحقیق استفاده کنیم.
13. احتمالات بیزی
احتمالات بیزی، استدلال بیزی، روشی بر پایه احتمالات برای استنتاج کردن است. اساس این روش، بر این اصل، استوار است که برای هر کمیتی، یک توزیع احتمال، وجود دارد که با مشاهده یک داده جدید، و استدلال در مورد توزیع احتمال آن، میتوان تصمیمات بهینهای اتخاذ کرد. این قضیه از آن جهت، مفید است که میتوان از طریق آن، احتمال یک پیشامد را با مشروط کردن نسبت به وقوع یا عدم وقوع یک پیشامد دیگر، محاسبه کرد. در بسیاری از حالتها، محاسبه احتمال یک پیشامد به صورت مستقیم، کاری دشوار است. با استفاده از این قضیه و مشروط کردن پیشامد مورد نظر نسبت به پیشامد دیگر، میتوان احتمال مورد نظر را محاسبه کرد.
14. آزمون خطای استاندارد میانگین
آزمون Z نوعی آزمون آماری است که توزیع آمارهی آزمون تحت فرضیهی صفر میتواند به صورت یک توزیع نرمال تخمین زدهشود. به علت قضیه حد مرکزی بیشتر آمارههای آزمون برای تعداد زیاد نمونه، به صورت تقریبی با توزیع نرمال قابل تخمین زدن هستند. برای هر سطحی معنادار بودن آزمون Z یک مقدار بحرانی دارد (برای مثال ۱/۹۶ برای ۵٪ دو طرفه) که نسبت به آزمون t راحتی بیشتری ایجاد میکند زیرا در آزمون t برای هر تعداد نمونه یک مقدار بحرانی مشخص وجود دارد. برای همین در بیشتر آزمونهای آماری در صورتی که واریانس جمعیت مشخص باشد یا تعداد نمونهها زیاد باشد بهراحتی میتوان به صورت تقریبی از آزمون Z استفاده کرد. در صورتی که واریانس جمعیت مشخص نباشد (و لازم باشد که از روی نمونهها بهدست آورده شود) یا تعداد نمونهها کم باشد (کمتر از ۳۰)، آزمون t مناسبتر از این آزمون است.
15. توزیع نمونهای
توزیع نمونهای (Sample distribution) در آمار به توزیع تک تک مشاهدات در یک نمونه اشاره دارد.
16. توزیع نمونهگیری
به توزیع یک آماره، توزیع نمونهبرداری یا توزیع نمونهگیری (Sampling distribution) میگویند. بهطور معمول، از توزیع نمونهگیری زمانی استفاده میشود که بیش از یک نمونه تصادفی ساده از اندازه جمعیت یکسان از دادهها در اختیار داریم و این نمونهها ارتباط با یکدیگر ندارند و مستقل هستند. در این حالت، اگر فردی در یک نمونه قرار بگیرد، احتمال دارد در نمونه بعدی نیز وجود داشته باشد.
17. واریانس
واریانس (Variance)، نوعی سنجش پراکندگی است. مقدار واریانس با میانگینگیری از مربع فاصله مقدار محتمل یا مشاهده شده با مقدار مورد انتظار محاسبه میشود. در مقایسه با میانگین میتوان گفت که میانگین مکان توزیع را نشان میدهد، در حالی که واریانس مقیاسی است که نشان میدهد که دادهها حول میانگین چگونه پخش شدهاند. واریانس کمتر بدین معنا است که انتظار میرود که اگر نمونهای از توزیع مزبور انتخاب شود مقدار آن به میانگین نزدیک باشد. یکای واریانس مربع یکای کمیت اولیه است. ریشه دوم واریانس که انحراف معیار نامیده میشود دارای واحدی یکسان با متغیر اولیه است.
کلام آخر
همانگونه که مشاهده کردید در دنیای ریاضیات و آمار نکات بسیار زیادی وجود دارد که بیشتر شرکتها و آموزشگاهها در زمان آموزش یادگیری ماشین به آنها اشاره نمیکنند، زیرا مباحث تخصصی و فنی هستند و البته امکان پرداختن به آنها به لحاظ بازه زمانی فراهم نیست. بنابراین این وظیفه خودتان است که به فکر یادگیری و تسلط بر مباحث ریاضی باشید.
به این مطلب چند ستاره میدهید؟(امتیاز: 4.5 - رای: 1)