ویرایش محتوا

ارتباط با اندیشه تحصیل آریا

همیشه در کنارتان هستیم، با ما تماس بگیرید

تیم پشتیبانی ما در هر زمان آماده کمک به شماست. با ما تماس بگیرید و مشاوره دریافت کنید.
شماره تماس

۳۶ ۲۷ ۵۷۵ ۰۹۱۲
5292 810 833 98+

پست الکترونیک

info@tahsilarya.com

آدرس دفتر

استان کرمانشاه - کرمانشاه - بلوار نوبهار - کوچه ۱۱۵ - پلاک ۶۰ - طبقه ۲
2nd Floor, No. 60, 115 Alley, Nobahar Blvd., Kermanshah City

زمان پاسخ گویی

۷ روز هفته از ساعت ۹ الی ۱۸

معرفی رشته دیتا ساینس/علوم داده (Data Science)

همیشه آماده کمک به شما

معرفی رشته دیتا ساینس/علوم داده (Data Science)

آنچه در این مقاله خواهید خواند:
  • معرفی دیتا ساینس
  • تعاریف دیتا ساینس
  • تاریخچه دیتا ساینس
  • متخصصین دیتا ساینس
  • چه رشته هایی به دیتا ساینس مرتبط هستند؟
  • مباحث مرتبط با دیتا ساینس
معرفی علم داده
علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، علوم کامپیوتر، مهندسی داده، بازشناخت الگو و… . هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.

تعاريف مختلف از دیتا ساینس:

استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده، رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد.
براساس دریسکول در سال ۲۰۱۴، علم  مهندسی عمران داده‌ها است. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد. به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.
طبق نظر توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده کسانی هستند که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار، پاسخ سؤال های کسب‌ و کار را پیدا کرد.

تاریخچه شکل گیری علوم داده یا دیتا ساینس:
عبارت علم داده بیش از یک دهه است که موجودیت دارد. ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کرده‌است. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است.
مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است. بنابراین تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌ است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیم‌گیری در میدان‌های جنگی استفاده می‌کرده‌است. این مدل ها را ریاضیدانان تهیه می‌کردند.

متخصصین علم داده یا دیتا ساینس:

به شاغلین در حوزهٔ علم داده، دانشمند داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است. در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌ است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. متخصصین علم داده قادرند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد. در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
دانشمندان داده می‌توانند مهارت‌هایشان را برای دست‌یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیر هستند:
  • توانایی استخراج و تفسیر منابع داده
  • مدیریت حجم زیاد اطلاعات با سخت‌افزار
    محدودیت‌های نرم‌افزاری و پهنای باند
  • ادغام منابع داده با یکدیگر
  • تضمین پایداری مجموعه‌های داده
  • مصورسازی داده برای فهم آن
  • ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای رگرسیون و طبقه‌بندی
  • مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر
  • به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

چه رشته هایی با علم داده یا دیتا ساینس مرتبط هستند؟

۱ علم اطلاعات و دانش شناسی
علوم کتابداری و اطلاع‌رسانی، نام قدیمِ «علم اطلاعات و دانش‌شناسی» است. دیتاساینس به مطالعه و بررسی شیوه‌های گوناگون تولید دانش، گردآوری منابع اطلاعاتی (کتاب، مجله، لوح فشرده، بانک‌های اطلاعاتی، پایگاه اطلاعاتی، اینترنت و وب)، سازماندهی، بازیابی و اشاعهٔ این منابع و محمل‌های اطلاعاتی می‌پردازد. در این راستا تلاش می‌نماید که در وقت خواننده یا کاربر صرفه‌جویی نماید. این دانش در واقع آمیزه‌ای است از دانش های داده، اطلاعات، دانش، مدیریت، فناوری، ارتباطات، اسناد، سیبرنتیک، کتابداری و فلسفه.
۲ علوم کامپیوتر
به دانش رایانه یا علم کامپیوتر به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند. علوم رایانه رویکردی علمی و عملی به محاسبات (computation) و کاربردهای آن است. این علم به بررسی سیستماتیک امکان‌پذیری، ساختار، پیاده‌سازی و مکانیزمِ محاسبه‌های روشمند (یا الگوریتم) می‌پردازد؛ که مبنای آن کسب، نمایش، پردازش، ذخیره‌سازی، ارتباط و دسترسی به اطلاعات است.
بنا به نظر پیتر جی. دنینگ، پرسش اساسی در علوم رایانه این است که چه چیزی می‌تواند (به نحوی کارآمد) خودکار انجام شود؟ رشته علوم رایانه را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم‌بندی کرد. بعضی از این زیررشته‌ها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آن‌ها را بررسی می‌کند) بسیار انتزاعی هستند. این در حالی است که زیررشته‌های دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشته‌های علوم رایانه بر چالش‌های موجود در اجرای محاسبات تمرکز دارند.
۳ رشته آمار
آمار (Statistics)شاخه‌ای از ریاضیات است که به گردآوری، تحلیل، و ارائه داده‌ها می‌پردازد. آمار را باید علم استخراج و توسعهٔ دانشهای تجربی و انسانی با استفاده از روش‌های گردآوری و تحلیل داده‌های تجربی (حاصل از اندازه‌گیری و آزمایش) دانست. روش‌های محاسباتی جدیدتر توسط رایانه همچون یادگیری ماشینی، نرم‌افزارهای آماری و کاوش‌های ماشینی در داده‌ها. در واقع، امتداد و گسترش دانش آمار به عهده محاسبات نو و دوران اعمال شیوه‌های ماشینی بوده و امروزه علم آمار را به علم بیان علوم دیگر مبدل ساخته‌است.
۴ ریاضیات کاربردی
Applied mathematics شاخه‌ای از ریاضیات است که از یک سو به کاربرد ریاضیات در رشته‌های دیگر (مدل) می‌پردازد. از سوی دیگر سعی دارد مبانی نظری ریاضیات محض را به مبانی عملی نزدیک‌تر کند و به عنوان پلی بین ریاضیات محض و علوم کاربردی عمل کند. از زمینه‌های مختلف آن، می‌توان به آنالیز عددی، نظریهٔ معادلات دیفرانسیل، بهینه‌سازی، نظریه اطلاعات، نظریه بازی‌ها و فیزیک ریاضی اشاره کرد.
۵ آمار پزشکی
آمار پزشکی (Medical statistics) به کاربرد آمار در پزشکی و علوم بهداشتی، شامل همه‌گیرشناسی، بهداشت عمومی، پزشکی قانونی و تحقیقات بالینی می‌پردازد.
۶ علوم تصمیم و مهندسي دانش
یک رشته منحصربه‌فرد و میان رشته‌ای که در سال ۱۳۸۹ بنا به پیشنهاد گروه محاسبات نرم ایجاد و مشخصات، برنامه‌ها و سرفصلهای دروس آن به دانشگاه‌های مربوط ابلاغ گردید. این رشته ارتباط تنگاتنگی با رشته هوش مصنوعی دارد. شاید بتوان آن را شاخه‌ای از محاسبات نرم در هوش مصنوعی به حساب آورد و به همین دلیل در حوزه‌های علوم دانش، محاسبات نرم، علوم کامپیوتر(علوم رایانه)، مدیریت فناوری اطلاعات و مدیریت کارایی کسب و کار به‌خوبی قابل تعریف می‌باشد. در همین زمینه می‌توان به کاربرد خاص و مورد مطالعاتی(Case Study) رشته هایی نظیر رشته علوم اقتصادی و شاخه های پزشکی و … اشاره داشت.
۷ بیوانفرورماتیک
زیست‌داده‌ورزی (Bioinformatique)
دانش استفاده از علوم رایانه و آمار و احتمالات در شاخه‌ی زیست‌شناسی مولکولی است. در چند دههٔ اخیر، پیشرفت در زیست‌شناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم و به دنبال آن ایجاد کلان‌داده‌ها (Big Data) بسیاری از گونه‌های موجودات شده‌است. تا جایی که پروژه‌های تعیین توالی ژنوم‌ها از پروژه‌های بار رایج این حوزه به حساب می‌آیند.
امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتری‌ها تا موجودات بسیار پیشرفته چون یوکاریوت‌های پیچیده شناسایی شده‌است. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی هر ۲۳ کروموزوم انسان موجود است.
۸ شیمی انفورماتیک
فناوری شیمی‌انفورماتیک یا شیمی‌داده‌وَرزی(Cheminformatics) بهره‌گیری از دانش آمار و کامپیوتر و تکنیک‌های اطلاعاتی در محدوده مسایل رشته شیمی است. این تکنیک‌های محیط مجازی در شرکت‌های داروسازی و در فرایندهای کشف دارو به‌کار می‌روند
۹ فیزیک محاسباتی
فیزیک رایانشی یا فیزیک محاسباتی ( Computational physics) زمینه‌ای‌ست مدرن، متنوّع، و گسترده که به بررسی، گزینش، و اعمال شیوه‌های آنالیز عددی در حل محاسباتی مدل‌های ریاضی (پیوسته) در فیزیک می‌پردازد
و‌‌‌‌‌…

مباحثی که با رشته علوم داده یا دیتا ساینس مرتبط هستند:

۱ داده  ( data): به‌طور کلی، می‌توان همهٔ دانسته‌ها، آگاهی‌ها، داشته‌ها، آمارها، شناسه‌ها، پیشینه‌ها را نوعی داده محسوب کرد. انسان برای ثبت و درک مشترک هر واقعیت و پدیده از نشانه‌های ویژهٔ آن بهره گرفته‌است. انسان برای نمایاندن داده‌ها نخست از نگاره و در ادامهٔ سیر تکاملی آن از حروف، شماره‌ها و نشانه‌ها کمک گرفت. برای باز نمودن داده‌ها از این موارد کمکی یا ترکیبی از آن‌ها استفاده می‌شود
۲ تصمیم گیری داده محور:تصمیم‌گیری داده‌محور
(Data-Driven Decision Making) فرایند تصمیم‌گیری بر اساس تحلیل داده به جای اتکای صرف به تجربه و شهود (Gut-Based Decision Making) است. یک متخصص بازاریابی می‌تواند تنها بر اساس تجریه خود نوع تبلیغات برای محصول را انتخاب کند یا بر اساس داده‌های قبلی که نشان می‌دهد مشتریان چه‌طور به تبلیغات واکنش نشان می‌دهند.
همین‌طور می‌تواند ترکیبی از این رویکردها را در تصمیم‌گیری داشته باشد. تصمیم‌گیری داده‌محور حالت همه یا هیچ (یا صفر و یکی) ندارد. شرکت‌های مختلف می‌توانند به تناسب شرایط خودشان از این رویکرد استفاده کنند.
۳ داده کاوی:
داده‌کاوی
(Data Mining)
به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود. بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش در پایگاه‌داده‌ها (به انگلیسی: knowledge discovery in databases) (اختصاری KDD) می‌دانند.
داده‌کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را در پی کشف و استخراج، مورد تحلیل قرار می‌دهد. این‌گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.
۴ آمار:
(Statistics)
شاخه‌ای از ریاضیات است که به گردآوری، تحلیل، و ارائه داده‌ها می‌پردازد. آمار را باید علم استخراج و توسعهٔ دانشهای تجربی و انسانی با استفاده از روش‌های گردآوری و تحلیل داده‌های تجربی (حاصل از اندازه‌گیری و آزمایش) دانست. روش‌های محاسباتی جدیدتر توسط رایانه همچون یادگیری ماشینی، نرم‌افزارهای آماری و کاوش‌های ماشینی در داده‌ها، در واقع، امتداد و گسترش دانش آمار به عهد محاسبات نو و دوران اعمال شیوه‌های ماشینی بوده است. امروزه علم آمار را به علم بیان علوم دیگر مبدل ساخته‌است.
۵ علوم کامپیوتر:
دانش رایانه یا علم کامپیوتر به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند. علوم رایانه رویکردی علمی و عملی به محاسبات (computation) و کاربردهای آن است. این علم به بررسی سیستماتیک: امکان‌پذیری، ساختار، پیاده‌سازی و مکانیزمِ محاسبه‌های روشمند (یا الگوریتم) می‌پردازد؛ که مبنای آن کسب، نمایش، پردازش، ذخیره‌سازی، ارتباط و دسترسی به اطلاعات است.
۶ یادگیری ماشین
یادگیری ماشین
(Machine learning)
یا اِم‌اِل (اختصاری ML)، مطالعه الگوریتم‌ها و مدل‌های آماری مورد استفاده سیستم‌های کامپیوتری است که به‌جای استفاده از دستورالعمل‌های واضح، از الگوها و استنباط برای انجام وظایف استفاده می‌کنند. یادگیری ماشینی علمی است که باعث می‌شود رایانه‌ها بدون نیاز به یک برنامه صریح در مورد یک موضوع خاص یاد بگیرند. به عنوان زیر مجموعه‌ای از هوش مصنوعی، الگوریتم‌های یادگیری ماشینی یک مدل ریاضی بر اساس داده‌های نمونه یا داده‌های آموزش به منظور پیش‌بینی یا تصمیم‌گیری بدون برنامه‌ریزی آشکار، ایجاد می‌کنند.
۷ مصور سازی داده:
مصورسازی داده شاخه‌ای از آمار توصیفی است که به مطالعهٔ چگونگی نمایش داده و انتقال اطلاعات به بیننده می‌پردازد. یک هدف اصلی مصورسازی داده، انتقال بهینهٔ اطلاعات به بیننده توسط داده‌نمایی است. مصورسازی بهینه، کاربر را قادر به تحلیل داده و استدلال در مورد آن می‌کند.
۸ کلان داده:
کلان‌داده‌، بزرگ داده‌ یا مه داده
( big data)
معمولاً به مجموعه داده‌هایی گفته می‌شود که بیش از حد بزرگ یا پیچیده هستند که نمی‌توان با نرم‌افزارهای کاربردی پردازش داده سنتی آنها را پردازش کرد. داده‌های با ورودی‌های زیاد (ردیف‌ها) توان آماری بیشتری را ارائه می‌دهند، در حالی که داده‌های با پیچیدگی بالاتر (ویژگی‌ها یا ستون‌های بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود. در حقیقت می‌توان گفت، مه‌داده حجم وسیعی از اطلاعات است که اگر حجم آن کم باشد قابل تفسیر و برداشت نیست
۹ هوش کسب و کار:
هوش کسب‌وکار مقادیر بزرگی از اطلاعات را برای شناسایی و توسعه فرصت‌های جدید بکار می‌گیرد. بهره بردن از فرصت‌های جدید و اعمال یک استراتژی اثربخش می‌تواند مزیت بازار رقابتی و پایداری بلندمدت به ارمغان بیاورد
۱۰ مدل سازی:
خلاصه‌ای از واقعیت را مدل گویند. به بیان دیگر، نمایش انتزاعی و مجرّد یا آبستره (Abstract) یا فیزیکی یک شیء یا سیستم (سامانه) را (از یک دیدگاه و نگاه خاص) مدل می‌نامند. فرآیند ایجاد و انتخاب مدل‌ها را مدل‌سازی نامیده‌اند. مدل‌ها، انواع گوناگون داشته (مثل مدل فیزیکی، مدل (ریاضی)، مدل آماری، مدل گرافی، نرم‌افزاری، و …) و کاربردهای حیاتی متنوّع و فراوانی در همه زمینه‌های علوم و فناوری دارند. تبدیل یک مفهوم آماری، به زبان ریاضی، نوعی از مدل‌سازی است.
۱۱ بهینه سازی:
بهینه‌سازی ریاضی یا برنامه‌ریزی ریاضی در ریاضیات، اقتصاد، مدیریت به برگزیدن بهترین عضو از یک مجموعه از اعضای دست یافتنی اشاره می‌کند. در ساده‌ترین شکل تلاش می‌شود که با گزینش نظام‌مند داده‌ها از یک مجموعه قابل دستیابی و محاسبه مقدار یک تابع حقیقی مقدار بیشینه و کمینه آن به دست آید
۱۲ هوش مصنوعی:
(Artificial intelligence) IA
هوشی است که توسط ماشین‌ها ظهور پیدا می‌کند، در مقابل هوش طبیعی که توسط جانوران شامل انسان‌ها نمایش می‌یابد. اما پیش از هرچیز باید این موضوع را دانست که کلمه هوش، نشان دهنده امکان استدلال است و اینکه آیا هوش مصنوعی می‌تواند به توانایی استدلال دست یابد یا خیر، خود موضوع اختلاف محققان است
۱۳ محاسبات نرم:
( soft computing)
به مجموعه‌ای از شیوه‌های جدید محاسباتی در علوم رایانه، هوش مصنوعی، یادگیری ماشینی و بسیاری از زمینه‌های کاربردی دیگر گفته می‌شود. در تمامی این زمینه‌ها به مطالعه، مدل‌سازی و آنالیز پدیده‌های بسیار پیچیده‌ای نیاز است که شیوه‌های علمی دقیق در گذشته، در حل آسان، تحلیلی، و کامل آنها موفق نبوده‌اند
۱۴ بازشناخت الگو :
شناسایی الگو (بازشناخت الگو یا تشخیص الگو) شاخه‌ای از مبحث یادگیری ماشینی است. می‌توان گفت شناسایی الگو، دریافت داده‌های خام و تصمیم‌گیری بر اساس دسته‌بندی داده‌ها است. بیشتر تحقیقات در زمینه شناسایی الگو در رابطه با «یادگیری نظارت شده» یا «یادگیری بدون نظارت» است

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *