علم دادهها چیست؟
علم داده دانشی میانرشتهای در ارتباط با استخراج دانش و دستیابی به آگاهی با استناد به مجموعهای از دادهها است. به بیان دقیقتر، علم داده را باید همگرایی چند رشته فنی دانست که سعی دارند از دادههای به ظاهر غیر مهم، اطلاعات مهمی را استخراج کنند. از جمله این حوزهها میتوان به ریاضیات، آمار، مهندسی داده، بازشناخت الگو و علوم مرتبط اشاره کرد. توماس دونپورت و دی جی پاتیل کارشناسن علم دادهها این مفهوم را اینگونه تشریح کردند: «علم داده جذابترین شغل قرن بیست و یکم است. متخصصین علم داده افرادی هستند که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخهای موردنیاز کسبوکارها را پیدا کنند. علم داده رشته نو ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. علم داده مهندسی عمران دادهها است. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.»
چه افرادی متخصص علم داده هستند؟
به شاغلین در حوزه علم داده، متخصص علم داده (data scientist) میگویند. چن فو جفوو در سال 1998 اولین بار در سخنرانی خود از واژه متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشته علمی، مسائل پیچیده مطرح شده در حوزه داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن 5 تا 8 سال زمان لازم است. متخصصین علم داده میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. از مهمترین مهارتهای موردنیاز متخصصان علم دادهها میتوان به توانایی استخراج و تفسیر منابع داده، مدیریت حجم زیاد اطلاعات با سختافزار، محدودیتهای نرمافزاری و پهنای باند، ادغام منابع داده با یکدیگر، تضمین پایداری مجموعههای داده، مصورسازی داده برای فهم آن، ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقهبندی، مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب و بهاشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام اشاره کرد.
علم دادهها چگونه پدید آمد؟
عبارت علم داده بیش از یک دهه است که وجود دارد. ویلیام کلیولند اولین فردی بود که اصطلاح علم داده را در سال ۲۰۰۱ شرح داد. وی در مقاله «علم داده: برنامهای برای گسترش جنبههای فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و دادهکاوی میدانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه میتواند منجر به نوآوریهای زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش دادهها را با دانش محاسبات تلفیق کنند. با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشتهاست. ناپلئون بناپارت از مدلهای ریاضی برای تصمیمگیری در میادین جنگی استفاده میکردهاست. این مدلها را ریاضیدانان تهیه میکردند.
تصمیمگیری دادهمحور چیست؟
- تصمیمگیری داده محور (Data-Driven Decision Making) یکی از مهمترین کاربردهای علم داده است. فرآیند تصمیمگیری بر اساس تحلیل داده به جای اتکای صرف به تجربه و شهود (Gut-Based Decision Making) است. یک متخصص بازاریابی میتواند تنها بر اساس تجریه خود نوع تبلیغات برای محصول را انتخاب کند یا بر اساس دادههای قبلی که نشان میدهد مشتریان چهطور به تبلیغات واکنش نشان میدهند. همینطور میتواند ترکیبی از این رویکردها را در تصمیمگیری داشته باشد. تصمیمگیری دادهمحور حالت همه یا هیچ (یا صفر و یکی) ندارد. شرکتهای مختلف میتوانند به تناسب شرایط خودشان از این رویکرد استفاده کنند. بسیاری از شرکتها تصور میکنند که دادهمحور هستند چرا که گزارشهای زیادی دارند یا داشبوردهای زیادی برای آنها طراحی شدهاست. در حالی که لزوماً چنین نیست. سازمانها زمانی دادهمحور عمل میکنند که دادههای مناسب را جمعآوری کنند، دادهها معتبر باشند، تحلیل درستی روی آنها انجام شود، نتایج آنها در تصمیمگیری در نظر گرفته شود و منجر به اقداماتی شوند که ارزش دادهها در آنها کاملاً قابل درک باشد. چنین ترتیبی زنجیره ارزش تحلیل دادهها نامیده میشود. تنها سازمانهایی دادهمحور هستند که بتوانند کل این زنجیره را تا رسیدن به تصمیمها و اقدامهای لازم در کسبوکار طی کنند. تحلیل دادهها یک عنصر کلیدی در سازمانهای داده محور است. اما اگر نتایج آن جدی گرفته نشود یا به درستی بکار گرفته نشود، سازمان دادهمحور نخواهد بود. سازمان برای دادهمحور بودن باید فرایندهای لازم و فرهنگ تصمیمگیری بر اساس دادهها را داشته باشد به طوری که این تصمیمها روی کسبوکار سازمان مؤثر باشد. فرهنگ موضوعی چندبعدی است که کیفیت دادهها و به اشتراکگذاری آنها، استخدام و آموزش متخصصین علم داده، ارتباطات، ساختار سازمانی، طراحی شاخصها و فرایندهای تصمیمگیری را دربرمیگیرد.
- استفاده درست از دادهها تنها یک مسئله فنی نیست اینکه چه پایگاهدادههایی دارید یا چند متخصص علم داده استخدام کردهاید بلکه تعامل پیچیدهای بین دادههایی است که در اختیار دارید، این که در کجا ذخیره میشوند، انسانها چگونه با آنها کار میکنند و روی چه مسائلی در سازمان کار میشود و تصور میشود ارزش حل شدن دارند. بیشتر مردم راجع به فناوری صحبت میکنند اما سازمانهای موفق میدانند که انسانها در مرکز این فرایند پیچیده قرار دارند. در هر سازمانی پاسخ به سوالهایی از قبیل چه کسی روی دادهها کنترل و نظارت دارد؟ این افراد به چه کسانی گزارش میدهند؟ و چه طور تصمیم میگیرند که روی چه مسائلی کار کنند خیلی مهمتر این است که از پایگاه داده SQL Server شرکت مایکروسافت استفاده میکنید یا شرکت اوراکل. از مهمترین سازمانهای دادهمحور میتوان به گوگل، آمازون، فیسبوک، مایکروسافت و لینکدین اشاره کرد. البته دادهمحور بودن مختصص شرکتهای فعال در فضای مجازی نیست. والمارت از دهه 70 میلادی بر پایه علم دادهها استراتژیهای تجاری خود را پیش برده است. این شرکت از اولین شرکتهایی است که از انباره دادههای حجیم برای مدیریت موجودی کالا استفاده کرد. در دهه 1980 والمارت اولین شرکتی بود که برای افزایش کیفیت دادههای خود از اسکنرهای بارکد استفاده کرد و بعدها که تعداد فروشگاهها و کالاها به سرعت افزایش یافت، اولین شرکت بزرگی بود که در فناوریهای RFID سرمایهگذاری کرد و در حال حاضر از فناوریهای پیشرفته پردازش دادهها مانند هدوپ و کاساندرا استفاده میکند.
بزرگ دادهها مفهوم عجین شده با علم دادهها
بزرگ دادهها به مجموعه گستردهای از دادهها اشاره دارد که به شکل روزافزون تولید میشوند و به روشهای پردازشی تازهای نیاز دارند تا بتوان در تصمیمگیریها از آنها استفاده کرد و بینش بهدست آورد. بزرگ دادهها مسیر حرکت کسب و کار و فرایند چرخش کار در سازمانها را مشخص میکنند. در بزرگداده با دادههای متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم. در اینجا، دادههای پرشتاب دادههاییاند که با شتاب بالایی تولید میشوند. کلانداده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعه داده دارد میگسترد. نمونههایی از کلانداده چنیناند: گزارشهای وبی، سامانههای بازشناسی با موجهای رادیویی، شبکههای حسگر، شبکههای اجتماعی، متنها و سندهای اینترنتی، نمایههای جستجوهای اینترنتی، اخترشناسی، مدرکهای پزشکی، بایگانی عکس، بایگانی ویدئو، پژوهشهای زمینشناسی و بازرگانی در اندازههای بزرگ.
بزرگ دادهها چه ویژگیهای شاخصی دارند؟
از مهمترین فاکتورهایی که باعث میشوند مجموعه گستردهای از اطلاعات را به عنوان بزرگ داده توصیف کنیم به موارد زیر میتوان اشاره کرد:
- اندازه: اندازه دادههای تولید شده و ذخیره شده. اندازه داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده کوچک باشد، بزرگ داده توصیف نمیشود.
- گوناگونی : دستهبندی دادهها به گونههای مختلف به شناخت بهتر ختم میشود.
- نرخ تولید شده: همان سرعت تولید دادهها است. نرخ بالای تولید داده، چالشهایی را در زمینه ذخیرهسازی و پردازش داده پدید میآورد.
- درست: کیفیت دادههای گردآوری شده بر دادهکاوی دقیق دادهها اثر مستقیم میگذارد.
اینترنت اشیا یکی از مهمترین صنایعی است که باعث شده بزرگ دادهها بیش از گذشته به چشم بیایند. اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدفگذاری دقیق کمک میکند. اینترنت اشیاء، به کلانداده کمک میکند، بنابراین تبدیل صنعت، شرکتها و حتی دولتهای راستهای، حوزه جدیدی را برای رقابتپذیری و رشد اقتصادی فراهم میسازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانهای است. ثروت اطلاعات جمعآوری شده به بیان کردن لایههای موجود در مکانیزم هدف موجود صنعت، کمک میکند. فناوری ایبی از انباره اطلاعاتی 7٫5 پتا بایت و 40 پتا بایت و 40 پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرفکنندگان و بازرگانی استفاده میکند. در شرکت ایبی 90 پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیونها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش میکند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا میکند و از 2005 سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن 7٫8 پتا بایت، 18٫5 پتا بایت و 24٫7 پتا بایت میباشد. فیسبوک با بیش از 50 میلیارد عکس استفادهکنندگان سرو کار دارد. از اوت 2012 گوگل در حدود 100 میلیارد پژوهش در هر ماه اجرا میکند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در 8 قالب آزمایش کرده و به بیش از 1٫2 مگ عملیات در هر ثانیه در 10 قالب رسیدهاست.
تصمیمگیری مبتنی بر علم دادهها چه سودی برای شرکتها به همراه دارد؟
مزایای تصمیمگیری دادهمحور بر همگان آشکار شدهاست. اریک برینجولفسن و همکارانش در دانشگاههای امآیتی و مدرسه وارتون دانشگاه پنسیلوانیا مطالعهای روی این موضوع انجام دادند که تصمیمگیری دادهمحور چه طور روی عملکرد شرکتها تأثیر میگذارد. آنها شاخصی را طراحی کردند که نشان میداد شرکتها تا چه حد از دادهها در تصمیمگیری استفاده میکنند و نشان دادند که به لحاظ آماری هر چه یک شرکت دادهمحورتر باشد بهرهوری آن بیشتر است. حتی با در نظر گرفتن گستره وسیعی از متغیرهای مداخلهگر چنین نتیجهای به دست میآید. یک انحراف معیار بالاتر در شاخص طراحی شده به معنای چهار تا شش درصد بهرهوری بیشتر است. همین مطالعه نشان داد که تصمیمگیری دادهمحور با نرخ بازگشت داراییها، بازگشت سهام، استفاده از داراییها و ارزش بازاری همبستگی مثبت دارد و این رابطه علی و معلولی به نظر میرسد. گزارش دیگری نشان داد که در سال 2014 هر دلاری که برای تحلیل دادهها هزینه میشود بهطور میانگین 13٫01 دلار بازگشت سرمایه دارد. این نسبت در سال 2011 میلادی 10٫66 دلار بودهاست. مطالعه دیگری که در دانشگاه نیویورک انجام شد، این مورد را بررسی کرد که استفاده از فناوریهای کلانداده تا چه اندازه میتواند به سازمانها کمک کند. این مطالعه نشان داد که با کنترل متغیرهای مداخلهگر احتمالی، استفاده از فناوریهای کلانداده با رشد در بهرهوری در ارتباط است. یک انحراف معیار بالاتر در استفاده از فناوریهای کلانداده با یک تا سه درصد بهرهوری بیشتر در مقایسه با یک سازمان میانگین در ارتباط است و یک انحراف معیار پایینتر با یک تا سه درصد بهرهوری کمتر.
به این مطلب چند ستاره میدهید؟(امتیاز: 4.8 - رای: 2)
- منبع: ماهنامه شبکه
- نویسنده: حمیدرضا تائبی