داده‌کاوی چیست و چه کاربردی در دنیای امروز دارد؟
۱۴۰۰/۰۳/۲۹ تاریخ انتشار

وب جهان‌گستر که بسیاری به‌نام فضای مجازی از آن نام می‌برند، نمونه واضح دیگری از منابع داده‌ای است که میلیاردها صفحه وب شامل اطلاعات متنی و چند رسانه‌ای را شامل می‌شود. صفحاتی که روزانه توسط میلیون‌ها نفر در سراسر جهان بازدید می‌شود. تحلیل این حجم از اطلاعات به شکل قابل فهم برای انسان‌ها موضوعی چالش‌برانگیز است. به همین دلیل است که شرکت‌ها به سراغ مفهوم مهمی به‌نام داده‌کاوی رفته‌اند. داده‌کاوی روش‌ها و ابزارهایی را برای خودکارسازی تحلیل‌ها و اکتشاف مجموعه داده‌های بزرگ و پیچیده ارائه می‌کند. امروزه، تحقیقات گسترده‌ای در ارتباط با داده‌کاوی در حوزه‌های متنوع و گسترده‌ای نظیر آمار، علوم کامپیوتر، یادگیری ماشین، مدیریت پایگاه داده‌ها و بصری‌سازی داده‌ها انجام می‌شود. البته داده‌‌کاوی منحصر به حوزه‌های آماری نیست و حتا در ارتباط با پردازش سیگنال‌ها نیز کاربرد دارد. 

داده‌کاوی چیست؟

به مجموعه روش‌های قابل اجرا روی بانک‌های اطلاعاتی بزرگ و پیچیده با هدف شناسایی الگوهای پنهان و جالب مستتر در میان داده‌ها، داده‌کاوی می‌گویند. راه‌حل‌های داده‌کاوی همواره به لحاظ پردازشی هزینه‌بر هستند. داده‌کاوی علمی میان رشته‌ای در ارتباط با ابزارها، متدولوژی‌ها و فرضیه‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها استفاده می‌شود. آشکارسازی الگوها در این زمینه شباهت زیادی به الگوهای ارائه شده در دنیای برنامه‌نویسی دارد. برخی از مردم داده کاوی را واژه‌ای مترادف با کشف دانش در بانک‌های اطلاعاتی (KDD) سرنام (knowledge discovery in databases) می‌دانند که برداشت نسبتا دقیقی است، زیرا داده‌کاوی در راستای کشف دانش استفاده می‌شود. داده‌کاوی، بانک‌های اطلاعاتی و مجموعه گسترده‌ای از داده‌ها را در پی کشف و استخراج دانش، مورد تحلیل قرار می‌دهد. این‌گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و فراگیر آمار توصیف کرد. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها و ابعاد و اندازه‌های داده‌های امروزی است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی و آموزش را طلب می‌کند. دلایل زیادی پیرامون چرایی و اهمیت داده‌کاوی در حوزه‌های پژوهشی وجود دارد که از آن جمله به موارد زیر می‌توان اشاره کرد:

  •  رشد انفجاری داده‌ها در حوزهای مختلف صنعت و دانشگاه که باعث شده تجهیزات ذخیره‌سازی نسبت به گذشته ارزان‌‌تر شوند. این موضوع با ورود ظرفیت‌های ذخیره‌سازی نامحدود ابری دوچندان شده است. 
  • ارتباطات سریع‌تر و پر سرعت که اجازه می‌دهند داده‌ها در کسری از ثانیه از مبدا به مقصد برسند. 
  •  بهبود عملکرد سامانه‌های مدیریت بانک‌های اطلاعاتی و پشتیبانی دقیق‌تر نرم‌افزارهای ثالث
  •  رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاه‌ها داده استفاده می‌شوند. 
  •  افزایش تکنیک‌هایی بر پایه جست‌وجو مثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
  •  گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز را از روی کامپیوترهای شخصی می‌دهد.
  •  بهبود قابلیت تلفیق داده‌ها از منابع غیرمتجانس به یک منبع قابل جست‌وجو. 

ترکیب عوامل یاد شده حجم سنگین و متنوعی از داده‌ها را پدید آورده که بدون وجود راه‌حل‌های داده‌کاوی استخراج دانش از دل این حجم از داده‌ها فراهم نبود. به همین دلیل است که بزرگان این حوزه همچون ژیاوی هان می‌گویند: «داده‌های ذخیره شده در بانک‌های اطلاعاتی و انبارهای داده‌ای به گورهای داده‌ای تبدیل شده‌اند. برای غلبه بر مشکل روزافزون شکاف میان داده‌ها و اطلاعات به توسعه ابزارهای ساخت‌یافته‌‌ای نیاز داریم که بتوانند گورهای داده را به شمش‌های طلا تبدیل کنند.» راه‌حل‌های داده‌کاوی متنوع هستند و از رگرسیون گرفته تا روش‌های شناسایی الگوهای پیچیده و دارای هزینه پردازشی بالا که در زیرمجموعه علوم کامپیوتر قرار می‌گیرند را شامل می‌شوند. سازمان‌ها و شرکت‌های بزرگ با هدف پیش‌بینی تحولات حوزه کاری خود از راه‌حل‌های داده‌کاوی استفاده می‌کنند، در حالی که داده‌کاوی کاربردهای دیگری نیز دارد. 

داده‌کاوی چگونه شکل گرفت؟

در دهه 60 میلادی کارشناسان آمار اصطلاح صید داده‌ها (Data Fishing) و لایروبی داده‌ها (Data Dredging) را برای اشاره به فعالیت‌های مرتبط با تحلیل داده‌ها استفاده کردند. سی سال بعد و با انباشته شدن داده‌ها در بانک‌های اطلاعاتی اصطلاح داده کاوی یکبار دیگر به‌طور جدی  مورد توجه سازمان‌ها قرار گرفت. به همین دلیل است که برخی کارشناسان دنیای فناوری‌اطلاعات پیشنهاد داده‌اند که بهتر است به جای اصطلاح داده‌کاوی از اصطلاحات دیگری همچون کشف دانش از داده‌ها (Knowledge Discovery Froom Data) کشف اطلاعات (discovery Information) یا استخراج دانش (Knowledge Extraction) استفاده کرد. در حال حاضر، یادگیری آماری، تحلیل داده‌ها و علم داده‌ها از اصطلاحات مترادف با داده‌کاوی هستند. 

چرا از داده‌کاوی استفاده می‌شود؟

همان‌گونه که اشاره شد داده‌کاوی در زمینه‌های مختلف قابل استفاده است، زیرا تمامی شرکت‌ها به دنبال آن هستند تا حجم انبوهی از داده‌های خامی که در اختیار دارند را به اطلاعات و دانش قابل فهم تبدیل کنند. به لحاظ تاریخی راه‌حل‌های داده‌کاوی به گونه‌ای گسترش یافته‌اند که به سادگی می‌توان آن‌ها را در ابزارهای نرم‌افزاری پیاده‌سازی کرد و از اطلاعات جمع‌آوری شده بهترین استفاده را برد. در شرایطی که سامانه‌های داده‌کاوی روی زیرساخت‌های کارگزار-کارخواه (Client/Server) قدرتمند پیاده‌سازی می‌شوند و دسترسی به بانک‌های اطلاعاتی بزرگ را فراهم می‌کنند، این امکان وجود دارد تا به سوالاتی نظیر چه مشتریانی ممکن است خریدار چه محصولاتی در آینده باشند، در چه بازه زمانی باید محصولی را به بازار عرضه کرد و پرسش‌های مشابه به شکل دقیقی پاسخ داد. 

پیش‌بینی خودکار گرایش‌ها و الگوهای رفتاری

این امکان وجود دارد تا داده‌کاوی را برای خودکارسازی فرآیندها و پیش‌بینی اتفاقات آینده به کار گرفت. به‌طور مثال، داده‌کاوی می‌تواند تبدیل به ابزاری شود که برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات برای کشف الگوهای معتبر و ناشناخته در میان انبوهی از داده‌ها باشد یا حتا در ارتباط با پیش‌بینی سیر تحولاتی استفاده شود که ممکن است بر عملکرد بازارهای بورس تاثیرگذار هستند. داده‌کاوی در زمینه تأمین امنیت می‌تواند به منزله ابزاری برای شناسایی فعالیت‌های افراد خرابکاری استفاده شود که قصد نفوذ به زیرساخت‌ها را دارند. به‌طور مثال، افراد خرابکار ممکن است به دنبال شناسایی اطلاعات مربوط به  حساب‌های مالی سازمان‌ها باشند، اما نه برای خالی کردن آن‌ها، بلکه برای انجام فعالیت‌هایی همچون پول‌شویی یا دور زدن قوانین. در چنین شرایطی داده‌کاوی می‌تواند با شناسایی و ردگیری فعالیت‌ها (با استناد به اطلاعاتی که درون بانک‌های اطلاعاتی ثبت شده) فعالیت‌های مشکوک را شناسایی و گزارش کند. در سال‌های اخیر داده‌کاوی و ابزارهای مرتبط با این فناوری پیشرفت‌های قابل ملاحظه‌ای داشته‌اند، با این‌حال هنوز هم محدودیت‌هایی وجود دارد. به‌طور مثال، در شرایطی که داده‌کاوی در آشکارسازی الگوها و روابط کمک فراوانی می‌کند، اما اطلاعاتی درباره ارزش یا میزان اهمیت اطلاعات به‌دست آمده ارائه نمی‌کند. همچنین، با وجود توانایی شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده‌کاوی مستلزم دخالت عامل انسانی با تجربه است که توانایی کافی برای طبقه‌بندی تحلیل‌ها را داشته باشد. با این‌حال، عملکرد مثبت داده‌کاوی در ارتباط با برخی حوزه‌ها همچون بازاریابی به اثبات رسیده است. بازاریابی هدفمند، نمونه‌ای روشن از بازاریابی پیش‌بینی است. شرکت‌های بزرگ از داده‌کاوی برای ارسال ایمیل‌های تبلیغاتی هدفمند و بهینه استفاده می‌کنند تا اطمینان حاصل کنند بازگشت سرمایه آن‌ها تضمین شده است. یکی از کاربردهای مهم و کاملا جذاب در این زمینه پیش‌بین ورشکستگی است. بسیاری از ما در خبرها می‌خوانیم که شرکتی بزرگ اعلام ورشکستگی کرده، در حالی که شرایط حاکم بر شرکت چنین چیزی را نشان نمی‌دهد. این خبررسانی چگونه انجام می‌شود؟ سازمان‌‌های بزرگ از داده‌کاوی برای شناسایی بخش‌هایی از جامعه که احتمال دارد در زمان بروز رخدادی واکنش‌هایی را نشان دهند استفاده می‌کنند و در بیشتر موارد این پیش‌بینی‌ها درست است. جدیدترین مورد در این زمینه پیش‌بینی کاهش قیمت نفت با گسترش ویروس کرونا بود. برخی از سازمان‌های بزرگ توانستند بر مبنای این پیش‌بینی میزان ضررهای مالی را به حداقل برسانند. 

شناسایی خودکار الگوهای ناشناخته

ابزارهای داده‌کاوی بیشتر برای بررسی بانک‌های اطلاعاتی و شناسایی الگوهای ناشناخته قابل بهره‌برداری استفاده می‌شوند. یک مثال خوب در ارتباط با شناسایی الگوها، تحلیل داده‌های فروش خرده‌فروشی‌ها است. این‌کار با هدف شناسایی محصولات غیرمرتبطی که توسط مردم خریداری می‌شود استفاده می‌شوند. شناسایی الگوها کاربرد دیگری نیز دارد که در ارتباط با شناسایی کلاه‌برداری در کارت‌های اعتباری است. در این‌گونه موارد الگوهای داده‌ای ناشناخته و جدید خبر از سرقت اطلاعات کارت‌های اعتباری و سایر کلاه‌برداری‌ها می‌دهند. 

داده‌کاوی چگونه استفاده می‌شود؟

همان‌گونه که اشاره شد داده‌کاوی به معنای به‌کارگیری ابزارهای تحلیل‌گر داده‌ها برای کشف الگوها و روابطی است که ناشناخته بوده‌اند. این ابزارها و راه‌کارها ممکن است مدل‌های آماری، الگوریتم‌های ریاضی و روش‌های یادگیری ماشین باشند که این‌کار را به شکل خودکار و با استناد به تجربیات قبلی که از طریق شبکه‌های عصبی به‌دست آورده‌اند یا درخت‌‌های تصمیم‌گیری انجام شود. البته به این نکته دقت کنید که داده‌کاوی محدود به گردآوری و مدیریت داده‌ها نیست و تجزیه و تحلیل اطلاعات و پیش‌بینی‌ها را شامل می‌شود. ابزارهایی که با بررسی فایل‌های متنی یا چند رسانه‌ای به کاوش در داده‌ها می‌پردازند سنجه‌های گوناگونی را ملاک عمل قرار می‌دهند که از آن جمله به موارد زیر می‌توان اشاره کرد: 

  • قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود، به‌طور مثال، خرید ماشین به خرید بنزین.
  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را به وجود می‌آورد، گرمای هوا و افزایش مصرف آب. 
  • پیش‌بینی(Prediction): در اینجا هدف پیش‌بینی یک متغیر پیوسته است، پیش‌بینی نرخ ارز یا هزینه‌های خدمات‌درمانی.
  • طبقه‌بندی (Classification): فرآیندی برای پیدا کردن مدلی است که رده‌های موجود در داده‌ها را تعریف و متمایز می‌کند. این‌کار به این دلیل انجام می‌شود که بتوان از این مدل برای پیش‌بینی رکوردهایی که برچسب آن‌ها ناشناخته است، استفاده کرد. 
  • خوشه‌بندی (Clustering): گروه‌بندی مجموعه‌ای از اشیا یا رکوردها به گونه‌ای که اشیای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند. این سنجه برخواسته از اصل مجموعه‌ها در ریاضی است. 
  • مصورسازی (visualization): مصورسازی داده‌ها یکی از کارآمدترین روش‌های اکتشاف در داده‌ها است.

برنامه‌های کاربردی که در زمینه تحلیل داده‌ها استفاده می‌شوند از محاوره‌‌های ساخت یافته که قابل اجرا روی بیشتر بانک‌های اطلاعاتی هستند و توسط ابزارهای تجزیه و تحلیل آماری پشتیبانی می‌شوند استفاده می‌کنند. ابزارهای ساده‌ای که برای تجزیه و تحلیل داده‌ها استفاده می‌شوند بر مبنای اصل راستی‌آزمایی (verification) کار می‌کنند که در آن فرضیه‌ای بسط داده شده، آن‌گاه داده‌ها برای تأیید یا رد آن بررسی می‌شوند. درست مشابه با روشی که برای آموزش مدل‌ها در مبحث یادگیری ماشین از آن استفاده می‌شود. به‌طور مثال، ممکن است نظریه‌ای مطرح شود که فردی که یک کامپیوتر می‌خرد حتما یک مانیتور نیز خریداری می‌کند. کارایی این روش به میزان خلاقیت ناظر برای ارائه فرضیه‌های متنوع و همچنین ساختار برنامه استفاده شده بستگی دارد. در نقطه مقابل این روش داده‌کاوی قرار دارد که از روش‌های خاصی برای کشف روابط استفاده می‌کند و الگوریتم‌هایی را برای تشخیص روابط میان داده‌ها استفاده می‌کند و آن‌هایی که یکتا (unique) یا متداول هستند را شناسایی می‌کند. به‌طور مثال، در زمان خرید یک لپ‌تاپ ممکن است بین خرید لپ‌تاپ توسط مشتری با نوع کاری که انجام می‌دهد، سن، شغل، میزان درآمد یا محیط کار رابطه‌ای برقرار شود. بر مبنای این فرضیه مالک فروشگاه ممکن است در آینده لپ‌تاپ‌هایی که مشخصات سخت‌افزاری آن‌ها مشابه با نمونه‌های فروخته شده است را بیشتر وارد کند. به اعتقاد برخی از متخصصان، داده‌کاوی مرحله‌ای در روند کشف دانش در پایگاه داده‌ها (KDD) سرنام Knowledge Discovery From Data است. مراحل دیگر در روند کشف دانش در پایگاه داده  پاکسازی، انتخاب و انتقال داده‌ها است. به همین دلیل است که داده‌کاوی را الگوی ارزیابی و عرضه دانش توصیف می‌کنند. 

علاوه بر پیشرفت ابزارهای مدیریت داده‌ها نباید از نقش رسانه‌های ذخیره‌ساز و افزایش قابلیت دسترسی به داده‌ها بی تفاوت گذشت. در چند سال گذشته افزایش ظرفیت‌های ذخیره‌سازی از یک سو و میل شرکت‌ها و کاربران به جمع‌آوری و نگهداری سریع اطلاعات باعث شده تا تکنیک‌های داده‌کاوی بهبود پیدا کنند. متخصصان علم داده‌ها پیش‌بینی کرده‌اند که به‌طور تخمینی کمیت داده‌ها در جهان هر ساله دو برابر می‌شود. همین موضوع باعث شده تا هزینه ذخیره‌سازی داده‌ها به شکل قابل توجهی از واحد پایه دلار برای هر مگابایت به سنت برای هر مگابایت کاهش پیدا کند. مثال بارز در این زمینه ارائه سرویس‌های ذخیره‌ساز رایگان گیگابایتی است که توسط سازمان‌های بزرگ ارائه می‌شود. همسو با این جریان توان پردازشی کامپیوترها (در مقیاس خانگی و سازمانی) هر دو سال دو برابر می‌شود، اما هزینه دسترسی به این توان پردازشی کاهش پیدا می‌کند. ترکیب این عوامل با یکدیگر باعث می‌شود تا در آینده داده‌کاوی در دو حوزه خصوصی و عمومی با استقبال روبرو شود. سازمان‌ها داده‌کاوی را به عنوان ابزاری قدرتمند برای افزایش مشتریان، کاهش تقلب، کاهش هزینه‌ها و انجام تحقیقات پزشکی به کار می‌گیرند. البته رشد انفجاری داده‌ها و به‌کارگیری بدون تامل راه‌حل‌های داده‌کاوی ممکن است پیامدهای اشتباهی به همراه داشته باشد. مهم‌ترین نگرانی از بابت کیفیت داده‌هایی است که باید تحلیل شوند. دومین نگرانی مهم در ارتباط نقض حریم خصوصی کاربران است. 

داده‌کاوی از چند مرحله مهم تشکیل شده است؟

داده‌کاوی از چند مرحله مهم تشکیل شده است. این فرآیند از جمع‌آوری داده‌های خام آغاز می‌شود و تا شکل‌دهی دانش جدید ادامه پیدا می‌کند. فرآیند بازگشتی داده‌کاوی شامل هفت مرحله پاک‌سازی داده (Data Cleaning)، یکپارچه‌سازی داده (Data Integration)، انتخاب داده (Data Selection)، تبدیل داده (Data Transformation)، داده‌کاوی (Data Mining)، ارزیابی الگو (Pattern Evaluation) و ارائه دانش (Knowledge Representation) است. هر یک از مراحل یاد شده شامل توضیحات مفصلی هستند، اما برای آشنایی خوانندگان به شکل کوتاه به آن‌ها اشاره می‌کنیم. 

پاک‌سازی داده‌ها

  • در این مرحله سعی می‌شود نویز از مجموعه حذف شود تا داده‌هایی که به لحاظ محتوایی یا ساختاری به یکدیگر شبیه هستند جمع‌آوری شود. 

یکپارچه‌سازی داده‌ها

  • در بیشتر موارد داده‌های متعلق به منابع مختلف باید بررسی شوند. این بررسی می‌تواند به یکباره یا در فواصل زمانی کوتاه‌مدت انجام شود. یک مثال روشن در این زمینه بانک‌های اطلاعاتی مورد استفاده توسط شعب مختلف فروشگاه‌های زنجیره‌ای است که در شهرهای مختلف مستقر شده‌اند. برای تحلیل دقیق لازم است تا داده‌ها در یک انباره داده‌ها جمع‌آوری شوند. 

انتخاب داده‌ها

  • در این مرحله،  باید داده‌های مرتبط با تحلیل را انتخاب و از مجموعه داده‌ها برای انجام تحلیل استفاده شود. 

تبدیل داده‌ها

  • تبدیل داده‌ها یک روش تثبیت‌کننده داده‌ها است. در این مرحله داده‌های انتخاب شده به قالب دیگری تبدیل می‌شوند. این‌کار با هدف ساده‌‌سازی و دقت فرآیند کاوش انجام می‌شود. از رایج‌ترین روش‌های به کار گرفته شده در این زمینه می‌توان به  استانداردهای Z1 تا Z7 اشاره کرد. 

داده‌کاوی

  • در این مرحله از روش‌های خلاقانه‌ای برای استخراج الگوهای مهم از میان داده‌ها استفاده می‌شود. الگوریتم اپریوری یا هوش ازدحامی با استفاده از کلونی زنبور عسل از جمله این روش‌ها هستند. 

ارزیابی الگو

  • در این مرحله، الگوهای به‌دست آمده به لحاظ جنبه‌های مختلف که پیرامون دقت، صحت و قابلیت تعمیم قرار دارند بررسی می‌شوند. در این مرحله متخصصان از روش‌هایی همچون آزمون فرض میانگین جامعه آماری، اعتبارسنجی متقابل، روش‌های بازنمونه‌گیری جک‌نایف و  بوت‌استرپ استفاده می‌کنند. 

ارائه دانش

  • آخرین مرحله در داده‌کاوی است. دانش شناسایی شده به شیوه قابل درک برای کاربر نهایی آماده می‌شود. در این مرحله از راه‌حل‌های بصری‌سازی برای کاربردی کردن اطلاعات استفاده می‌شود. این کار به کاربر نهایی کمک می‌کند تا تفسیر دقیقی از نتایج به‌دست آمده پیدا کند

به این مطلب چند ستاره می‌دهید؟(امتیاز: 4.5 - رای: 1)

ثبت نظر تعداد نظرات: 0 تعداد نظرات: 0
usersvg