آنچه در این مقاله خواهید خواند:
-
معرفی دیتا ساینس
-
تعاریف دیتا ساینس
-
تاریخچه دیتا ساینس
-
متخصصین دیتا ساینس
-
چه رشته هایی به دیتا ساینس مرتبط هستند؟
-
مباحث مرتبط با دیتا ساینس
معرفی علم داده
علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، علوم کامپیوتر، مهندسی داده، بازشناخت الگو و… . هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
تعاريف مختلف از دیتا ساینس:
استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده، رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد.
براساس دریسکول در سال ۲۰۱۴، علم مهندسی عمران دادهها است. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد. به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
طبق نظر توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده کسانی هستند که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار، پاسخ سؤال های کسب و کار را پیدا کرد.
تاریخچه شکل گیری علوم داده یا دیتا ساینس:
عبارت علم داده بیش از یک دهه است که موجودیت دارد. ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کردهاست. وی در مقاله «علم داده: برنامهای برای گسترش جنبههای فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و دادهکاوی میدانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است.
مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است. بنابراین تلفیق این دو گروه میتواند منجر به نوآوریهای زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش دادهها را با دانش محاسبات تلفیق کنند.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیمگیری در میدانهای جنگی استفاده میکردهاست. این مدل ها را ریاضیدانان تهیه میکردند.
متخصصین علم داده یا دیتا ساینس:
به شاغلین در حوزهٔ علم داده، دانشمند داده (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شدهاست. در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شده است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. متخصصین علم داده قادرند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد. در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
دانشمندان داده میتوانند مهارتهایشان را برای دستیابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیر هستند:
-
توانایی استخراج و تفسیر منابع داده
-
مدیریت حجم زیاد اطلاعات با سختافزار
محدودیتهای نرمافزاری و پهنای باند
-
ادغام منابع داده با یکدیگر
-
تضمین پایداری مجموعههای داده
-
مصورسازی داده برای فهم آن
-
ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای رگرسیون و طبقهبندی
-
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر
-
به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
چه رشته هایی با علم داده یا دیتا ساینس مرتبط هستند؟
۱ علم اطلاعات و دانش شناسی
علوم کتابداری و اطلاعرسانی، نام قدیمِ «علم اطلاعات و دانششناسی» است. دیتاساینس به مطالعه و بررسی شیوههای گوناگون تولید دانش، گردآوری منابع اطلاعاتی (کتاب، مجله، لوح فشرده، بانکهای اطلاعاتی، پایگاه اطلاعاتی، اینترنت و وب)، سازماندهی، بازیابی و اشاعهٔ این منابع و محملهای اطلاعاتی میپردازد. در این راستا تلاش مینماید که در وقت خواننده یا کاربر صرفهجویی نماید. این دانش در واقع آمیزهای است از دانش های داده، اطلاعات، دانش، مدیریت، فناوری، ارتباطات، اسناد، سیبرنتیک، کتابداری و فلسفه.
۲ علوم کامپیوتر
به دانش رایانه یا علم کامپیوتر به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند. علوم رایانه رویکردی علمی و عملی به محاسبات (computation) و کاربردهای آن است. این علم به بررسی سیستماتیک امکانپذیری، ساختار، پیادهسازی و مکانیزمِ محاسبههای روشمند (یا الگوریتم) میپردازد؛ که مبنای آن کسب، نمایش، پردازش، ذخیرهسازی، ارتباط و دسترسی به اطلاعات است.
بنا به نظر پیتر جی. دنینگ، پرسش اساسی در علوم رایانه این است که چه چیزی میتواند (به نحوی کارآمد) خودکار انجام شود؟ رشته علوم رایانه را میتوان به زیررشتههای نظری و عملی بسیاری تقسیمبندی کرد. بعضی از این زیررشتهها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آنها را بررسی میکند) بسیار انتزاعی هستند. این در حالی است که زیررشتههای دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشتههای علوم رایانه بر چالشهای موجود در اجرای محاسبات تمرکز دارند.
۳ رشته آمار
آمار (Statistics)شاخهای از ریاضیات است که به گردآوری، تحلیل، و ارائه دادهها میپردازد. آمار را باید علم استخراج و توسعهٔ دانشهای تجربی و انسانی با استفاده از روشهای گردآوری و تحلیل دادههای تجربی (حاصل از اندازهگیری و آزمایش) دانست. روشهای محاسباتی جدیدتر توسط رایانه همچون یادگیری ماشینی، نرمافزارهای آماری و کاوشهای ماشینی در دادهها. در واقع، امتداد و گسترش دانش آمار به عهده محاسبات نو و دوران اعمال شیوههای ماشینی بوده و امروزه علم آمار را به علم بیان علوم دیگر مبدل ساختهاست.
۴ ریاضیات کاربردی
Applied mathematics شاخهای از ریاضیات است که از یک سو به کاربرد ریاضیات در رشتههای دیگر (مدل) میپردازد. از سوی دیگر سعی دارد مبانی نظری ریاضیات محض را به مبانی عملی نزدیکتر کند و به عنوان پلی بین ریاضیات محض و علوم کاربردی عمل کند. از زمینههای مختلف آن، میتوان به آنالیز عددی، نظریهٔ معادلات دیفرانسیل، بهینهسازی، نظریه اطلاعات، نظریه بازیها و فیزیک ریاضی اشاره کرد.
۵ آمار پزشکی
آمار پزشکی (Medical statistics) به کاربرد آمار در پزشکی و علوم بهداشتی، شامل همهگیرشناسی، بهداشت عمومی، پزشکی قانونی و تحقیقات بالینی میپردازد.
۶ علوم تصمیم و مهندسي دانش
یک رشته منحصربهفرد و میان رشتهای که در سال ۱۳۸۹ بنا به پیشنهاد گروه محاسبات نرم ایجاد و مشخصات، برنامهها و سرفصلهای دروس آن به دانشگاههای مربوط ابلاغ گردید. این رشته ارتباط تنگاتنگی با رشته هوش مصنوعی دارد. شاید بتوان آن را شاخهای از محاسبات نرم در هوش مصنوعی به حساب آورد و به همین دلیل در حوزههای علوم دانش، محاسبات نرم، علوم کامپیوتر(علوم رایانه)، مدیریت فناوری اطلاعات و مدیریت کارایی کسب و کار بهخوبی قابل تعریف میباشد. در همین زمینه میتوان به کاربرد خاص و مورد مطالعاتی(Case Study) رشته هایی نظیر رشته علوم اقتصادی و شاخه های پزشکی و … اشاره داشت.
۷ بیوانفرورماتیک
زیستدادهورزی (Bioinformatique)
دانش استفاده از علوم رایانه و آمار و احتمالات در شاخهی زیستشناسی مولکولی است. در چند دههٔ اخیر، پیشرفت در زیستشناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم و به دنبال آن ایجاد کلاندادهها (Big Data) بسیاری از گونههای موجودات شدهاست. تا جایی که پروژههای تعیین توالی ژنومها از پروژههای بار رایج این حوزه به حساب میآیند.
امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتریها تا موجودات بسیار پیشرفته چون یوکاریوتهای پیچیده شناسایی شدهاست. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی هر ۲۳ کروموزوم انسان موجود است.
۸ شیمی انفورماتیک
فناوری شیمیانفورماتیک یا شیمیدادهوَرزی(Cheminformatics) بهرهگیری از دانش آمار و کامپیوتر و تکنیکهای اطلاعاتی در محدوده مسایل رشته شیمی است. این تکنیکهای محیط مجازی در شرکتهای داروسازی و در فرایندهای کشف دارو بهکار میروند
۹ فیزیک محاسباتی
فیزیک رایانشی یا فیزیک محاسباتی ( Computational physics) زمینهایست مدرن، متنوّع، و گسترده که به بررسی، گزینش، و اعمال شیوههای آنالیز عددی در حل محاسباتی مدلهای ریاضی (پیوسته) در فیزیک میپردازد
و…
مباحثی که با رشته علوم داده یا دیتا ساینس مرتبط هستند:
۱ داده ( data): بهطور کلی، میتوان همهٔ دانستهها، آگاهیها، داشتهها، آمارها، شناسهها، پیشینهها را نوعی داده محسوب کرد. انسان برای ثبت و درک مشترک هر واقعیت و پدیده از نشانههای ویژهٔ آن بهره گرفتهاست. انسان برای نمایاندن دادهها نخست از نگاره و در ادامهٔ سیر تکاملی آن از حروف، شمارهها و نشانهها کمک گرفت. برای باز نمودن دادهها از این موارد کمکی یا ترکیبی از آنها استفاده میشود
۲ تصمیم گیری داده محور:تصمیمگیری دادهمحور
(Data-Driven Decision Making) فرایند تصمیمگیری بر اساس تحلیل داده به جای اتکای صرف به تجربه و شهود (Gut-Based Decision Making) است. یک متخصص بازاریابی میتواند تنها بر اساس تجریه خود نوع تبلیغات برای محصول را انتخاب کند یا بر اساس دادههای قبلی که نشان میدهد مشتریان چهطور به تبلیغات واکنش نشان میدهند.
همینطور میتواند ترکیبی از این رویکردها را در تصمیمگیری داشته باشد. تصمیمگیری دادهمحور حالت همه یا هیچ (یا صفر و یکی) ندارد. شرکتهای مختلف میتوانند به تناسب شرایط خودشان از این رویکرد استفاده کنند.
۳ داده کاوی:
دادهکاوی
(Data Mining)
به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ گفته میشود. بسیاری از مردم داده کاوی را مترادف واژههای رایج کشف دانش در پایگاهدادهها (به انگلیسی: knowledge discovery in databases) (اختصاری KDD) میدانند.
دادهکاوی، پایگاهها و مجموعه حجیم دادهها را در پی کشف و استخراج، مورد تحلیل قرار میدهد. اینگونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
۴ آمار:
(Statistics)
شاخهای از ریاضیات است که به گردآوری، تحلیل، و ارائه دادهها میپردازد. آمار را باید علم استخراج و توسعهٔ دانشهای تجربی و انسانی با استفاده از روشهای گردآوری و تحلیل دادههای تجربی (حاصل از اندازهگیری و آزمایش) دانست. روشهای محاسباتی جدیدتر توسط رایانه همچون یادگیری ماشینی، نرمافزارهای آماری و کاوشهای ماشینی در دادهها، در واقع، امتداد و گسترش دانش آمار به عهد محاسبات نو و دوران اعمال شیوههای ماشینی بوده است. امروزه علم آمار را به علم بیان علوم دیگر مبدل ساختهاست.
۵ علوم کامپیوتر:
دانش رایانه یا علم کامپیوتر به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند. علوم رایانه رویکردی علمی و عملی به محاسبات (computation) و کاربردهای آن است. این علم به بررسی سیستماتیک: امکانپذیری، ساختار، پیادهسازی و مکانیزمِ محاسبههای روشمند (یا الگوریتم) میپردازد؛ که مبنای آن کسب، نمایش، پردازش، ذخیرهسازی، ارتباط و دسترسی به اطلاعات است.
۶ یادگیری ماشین
یادگیری ماشین
(Machine learning)
یا اِماِل (اختصاری ML)، مطالعه الگوریتمها و مدلهای آماری مورد استفاده سیستمهای کامپیوتری است که بهجای استفاده از دستورالعملهای واضح، از الگوها و استنباط برای انجام وظایف استفاده میکنند. یادگیری ماشینی علمی است که باعث میشود رایانهها بدون نیاز به یک برنامه صریح در مورد یک موضوع خاص یاد بگیرند. به عنوان زیر مجموعهای از هوش مصنوعی، الگوریتمهای یادگیری ماشینی یک مدل ریاضی بر اساس دادههای نمونه یا دادههای آموزش به منظور پیشبینی یا تصمیمگیری بدون برنامهریزی آشکار، ایجاد میکنند.
۷ مصور سازی داده:
مصورسازی داده شاخهای از آمار توصیفی است که به مطالعهٔ چگونگی نمایش داده و انتقال اطلاعات به بیننده میپردازد. یک هدف اصلی مصورسازی داده، انتقال بهینهٔ اطلاعات به بیننده توسط دادهنمایی است. مصورسازی بهینه، کاربر را قادر به تحلیل داده و استدلال در مورد آن میکند.
۸ کلان داده:
کلانداده، بزرگ داده یا مه داده
( big data)
معمولاً به مجموعه دادههایی گفته میشود که بیش از حد بزرگ یا پیچیده هستند که نمیتوان با نرمافزارهای کاربردی پردازش داده سنتی آنها را پردازش کرد. دادههای با ورودیهای زیاد (ردیفها) توان آماری بیشتری را ارائه میدهند، در حالی که دادههای با پیچیدگی بالاتر (ویژگیها یا ستونهای بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود. در حقیقت میتوان گفت، مهداده حجم وسیعی از اطلاعات است که اگر حجم آن کم باشد قابل تفسیر و برداشت نیست
۹ هوش کسب و کار:
هوش کسبوکار مقادیر بزرگی از اطلاعات را برای شناسایی و توسعه فرصتهای جدید بکار میگیرد. بهره بردن از فرصتهای جدید و اعمال یک استراتژی اثربخش میتواند مزیت بازار رقابتی و پایداری بلندمدت به ارمغان بیاورد
۱۰ مدل سازی:
خلاصهای از واقعیت را مدل گویند. به بیان دیگر، نمایش انتزاعی و مجرّد یا آبستره (Abstract) یا فیزیکی یک شیء یا سیستم (سامانه) را (از یک دیدگاه و نگاه خاص) مدل مینامند. فرآیند ایجاد و انتخاب مدلها را مدلسازی نامیدهاند. مدلها، انواع گوناگون داشته (مثل مدل فیزیکی، مدل (ریاضی)، مدل آماری، مدل گرافی، نرمافزاری، و …) و کاربردهای حیاتی متنوّع و فراوانی در همه زمینههای علوم و فناوری دارند. تبدیل یک مفهوم آماری، به زبان ریاضی، نوعی از مدلسازی است.
۱۱ بهینه سازی:
بهینهسازی ریاضی یا برنامهریزی ریاضی در ریاضیات، اقتصاد، مدیریت به برگزیدن بهترین عضو از یک مجموعه از اعضای دست یافتنی اشاره میکند. در سادهترین شکل تلاش میشود که با گزینش نظاممند دادهها از یک مجموعه قابل دستیابی و محاسبه مقدار یک تابع حقیقی مقدار بیشینه و کمینه آن به دست آید
۱۲ هوش مصنوعی:
(Artificial intelligence) IA
هوشی است که توسط ماشینها ظهور پیدا میکند، در مقابل هوش طبیعی که توسط جانوران شامل انسانها نمایش مییابد. اما پیش از هرچیز باید این موضوع را دانست که کلمه هوش، نشان دهنده امکان استدلال است و اینکه آیا هوش مصنوعی میتواند به توانایی استدلال دست یابد یا خیر، خود موضوع اختلاف محققان است
۱۳ محاسبات نرم:
( soft computing)
به مجموعهای از شیوههای جدید محاسباتی در علوم رایانه، هوش مصنوعی، یادگیری ماشینی و بسیاری از زمینههای کاربردی دیگر گفته میشود. در تمامی این زمینهها به مطالعه، مدلسازی و آنالیز پدیدههای بسیار پیچیدهای نیاز است که شیوههای علمی دقیق در گذشته، در حل آسان، تحلیلی، و کامل آنها موفق نبودهاند
۱۴ بازشناخت الگو :
شناسایی الگو (بازشناخت الگو یا تشخیص الگو) شاخهای از مبحث یادگیری ماشینی است. میتوان گفت شناسایی الگو، دریافت دادههای خام و تصمیمگیری بر اساس دستهبندی دادهها است. بیشتر تحقیقات در زمینه شناسایی الگو در رابطه با «یادگیری نظارت شده» یا «یادگیری بدون نظارت» است




