واژه میانرشتهای به چه معنا است؟
میانرشتهای (Interdisciplinary) اشاره به حوزههای نوین در دانش دارد که بیش از یک زمینه محض دانشی را مورد مطالعه قرار میدهد. روش برخورد میانرشتهای فرصت عبور از مرزهای سنتی رشتههای گوناگون دانش را با هدف رسیدن به نتیجه مطلوب در یک رشته فراهم میسازد. به عبارت دیگر، یک حوزه میانرشتهای، عبارت است از تلفیق دانش، روش و تجارب دو یا چند حوزه علمی و تخصصی برای شناخت و حل یک مسئله پیچیده یا معضل اجتماعی چندوجهی. در یک فعالیت علمی میانرشتهای، متخصصان دو یا چند رشته و دارای تخصص علمی در ارتباط با شناخت، حل، یا تحلیل یک پدیده، موضوع یا مسئله معمولاً پیچیده و واقعی با یکدیگر تعامل و همکاری علمی میکنند؛ بنابراین، فعالیت علمی میانرشتهای زمانی معنا پیدا میکند که شناخت و فهم علمی و دقیق پدیده یا مسئلهای پیچیده یا ناشناخته که از ظرفیت و دانش یک رشته یا تخصص خارج است، هدف باشد.
تاریخچه کوتاهی در ارتباط با علم دادهها
عبارت علم داده بیش از یک دهه است که ارائه شده است. ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کردهاست. وی در مقاله «علم داده: برنامهای برای گسترش جنبههای فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و دادهکاوی میدانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه میتواند منجر به نوآوریهای زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش دادهها را با دانش محاسبات تلفیق کنند. با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشتهاست. آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوال های کسبوکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند: علم داده مهندسی عمران دادههاست. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
چه کسی را یک دانشمند داده میگوییم؟
به افراد شاغل در حوزه علم داده، دانشمند داده (data scientist) میگوییم. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده است در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند از آن استفاده شدهاست. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژه متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشته علمی، مسائل پیچیده مطرح شده در حوزه داده را حل میکنند.
چه مدت زمانی طول میکشد تا فردی به یک دانشمند علم دادهها تبدیل شود؟
بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
یک دانشمند داده چه مهارتهایی دارد؟
دانشمندان داده میتوانند مهارتهایشان را برای دستیابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
- توانایی استخراج و تفسیر منابع داده
- مدیریت حجم زیاد اطلاعات با سختافزار
- محدودیتهای نرمافزاری و پهنای باند
- ادغام منابع داده با یک دیگر
- تضمین پایداری مجموعههای داده
- مصورسازی داده برای فهم آن
- ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقهبندی
- مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
- به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
پر کاربردترین ابزارها در حوزه علم دادهها
نرمافزارها، ابزارها، زبانها و چارچوبهای مختلفی برای کار با دادهها در اختیار دانشمندان دادهها قرار دارد که از مهمترین آنها به موارد زیر باید اشاره کرد:
زبان برنامه نویسی آر
- R، یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و علم دادهها است، که بر اساس زبانهای اس و اسکیم پیادهسازی شدهاست. این نرمافزار متن باز، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است. R، حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای ویژوال بیسیک، سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
پایتون
- پایتون یک زبان برنامهنویسی شیءگرا، تفسیری، سطح بالا، و همه منظوره است، که خیدو فان روسوم آنرا طراحی کردهاست و اولین بار در سال ۱۹۹۱ منتشر شدهاست. فلسفه اصلی طراحی پایتون «خوانایی بالای کد» است و نویسههای فاصله خالی در آن معنادار هستند و مکرر استفاده میشوند. ساختار زبانی و دیدگاه شیءگرا در پایتون به گونهای طراحی شدهاست که به برنامهنویس امکان نوشتن کد منطقی و واضح (بدون ابهام) را برای پروژههای کوچک و بزرگ میدهد.
وکا
- وکا (Weka) نام یک نرمافزار آزاد است که شامل مجموعهای از الگوریتمهای یادگیری ماشینی و دادهکاوی میشود. این ابزار در دانشگاه وایکاتو در کشور نیوزلند توسعه داده شده است. وکا در تحلیل دادههای عظیم کاربرد دارد.
جاوا
- جاوا (Java) یک زبان برنامهنویسیِ شیءگرا است که نخستینبار توسط جیمز گاسلینگ در شرکت سانمایکروسیستمز ایجاد گردید و در سال ۱۹۹۱ بهعنوان بخشی از سکوی جاوا منتشر شد. زبان جاوا شبیه به سیپلاسپلاس است؛اما مدل شیءگرایی آسانتری دارد و از قابلیتهای سطح پایین کمتری پشتیبانی میکند. ایدهٔ شیءگرایی جاوا از زبان اسمالتاک گرفته شدهاست. یکی از قابلیتهای بنیادین جاوا این است که مدیریت حافظه را بهطور خودکار انجام میدهد. ضریب اطمینان عملکرد برنامههای نوشتهشده به این زبان نسبت به زبانهای نسل اول C بالاتر است. برنامههای جاوا به صورت بایت کد میشوند و توسط ماشین مجازی جاوا (JVM) به کدهای ماشین تبدیل و اجرا میشوند. در صورت وجود JVM مانند سایر زبانهای مبتنی بر آن که وابسته به سیستمعامل خاصی نیستند برنامههای نوشته شده به جاوا بر روی هر نوع سیستم عامل و هرگونه وسیله الکترونیکی قابل اجرا میباشند. شعار جاوا «یکبار بنویس و همهجا اجرا کن» (Write once, Run anywhere) است که به همین ویژگی اشاره دارد. این ویژگی جاوا را مستقل از سکو مینامند.
گنو آکتیو
- گنو آکتِیو (GNU Octave) زبان برنامهنویسی سطح بالایی است که بیشتر برای محاسبات عددی به کار میرود. این برنامه امکانات زیادی را از طریق رابط خط فرمان (به انگلیسی: Command-line interface) برای حل عددی مسائل خطی و غیر خطی میدهد. این برنامه را میتوان جایگزین مناسبی برای همتای غیر آزاد خود متلب به حساب آورد. سایلب نیز دومین جایگزین برجسته متنباز و رایگان متلب بهشمار میرود که نسبت به گنو آکتیو تکیه کمتری بر سازگاری (دو سویه) دستورها با متلب دارد.
جولیا
- جولیا یک زبان برنامهنویسی پویا و سطح بالا است که بیشتر برای مقاصد محاسبات حجم بالای علمی مورد استفاده قرار میگیرد. البته از جولیا میتوان به عنوان زبان برنامهنویسی همه منظوره نیز استفاده کرد. از ویژگیهای جولیا باید به متن باز بودن، مانند زبان لیسپ هومویکونیک است، به این معنا که کدهای برنامه نیز دادههایی از برنامه بهشمار میروند، که امکان تولید کدهای برنامهنویسی پویا را به برنامهنویس میدهد، در تعریف توابع بسیار قوی و انعطافپذیر است، که امکان تعریف رَویهها و عملگرهای محاسباتی جامع برای ساختارهای داده متفاوت را فراهم میآورد، دارای قابلیتهای سطح پایین کنترلی و محاسباتی است، که سرعت اجرا را تا حد زبانهای با نوع داده ایستا مانند سی یا فرترن افزایش میدهد، دارای سیستم مدیریت بسته است، دارای قابلیت فراخوانی توابع پایتون با استفاده از بسته PyCall است، دارای قابلیت فراخوانی مستقیم توابع سی است، نوع دادههای تعریف شده به وسیله کاربر سرعت و فشردگی انواع توکار زبان را دارند، پشتیبانی بهینه از یونیکد شامل UTF-8 و برای یادگیری و کاربری ساده اشاره کرد.
به این مطلب چند ستاره میدهید؟(امتیاز: 4.5 - رای: 1)