مفاهیم فناوری اطلاعات؛ داده‌های کلان (Big Data)

داده‌های کلان چیست؟

به مجموعه ای از داده ها گفته می شود که به خاطر بزرگی و حجم وسیعشان نمی توان آنها را همانند پایگاه های داده معمولی مدیریت کرد. این داده ها آنقدر وسیع و حجیم هستند که با نرم افزارها و ابزار معمولی مدیریت داده ها نمی توان عملیات مختلفی از قبیل گردآوری، ذخیره سازی، مدیریت و پردازش را بر روی آنها انجام داد.

در عصر حاضر به خاطر تولید فزاینده داده ها و رشد شتابنده فناوری های اطلاعاتی نمی توان تعریف مشخصی از داده‌های کلان به دست داد، اما هم اکنون مجموعه داده های چند ترابایتی (هر ترابایت= 1000 گیگابایت) تا چند پتابایتی (هر پتابایت= 1000 ترابایت) را داده‌های کلان می نامند. البته برخی موسسات پژوهشی برای تعریف داده‌های کلان علاوه بر ویژگی حجم، از دو شاخص سرعت تبادل و تنوع داده ها هم استفاه می کنند.

البته ظرفیت و توانمندی سازمان‌ها و شرکت‌های مختلف در زمینه مدیریت داده ها هم در این تعریف دخیل است. گاهی ممکن است چند گیگابایت داده برای شرکتی «داده‌های کلان» به حساب آید، اما ممکن است شرکت دیگری ده ها یا صدها ترابایت داده را برای خود داده‌های کلان بنامد. هم اکنون وبلاگ ها، شبکه های اجتماعی، نتایج جستجوهای اینترنتی و پایگاه های داده مربوط به رشته های علمی مختلف از مهمترین داده‌های کلان به شمار می روند. یکی از مثال های بارز در این زمینه پایگاه های داده ها و اطلاعات هواشناسی است. این پایگاه ها روزانه حجم بسیار وسیعی از داده های مربوط به آب و هوا و تغییرات جوی را گردآوری و ذخیره می کنند.

یکی از مهم‌ترین ویژگی داده‌های کلان این است که هیچ ساختار و نظم مشخصی بر آنها حاکم نیست. حجم وسیع این داده ها نیز باعث شده است که پردازش آنها عمدتاً به وسیله فناوری رایانش ابری صورت گیرد، چرا که تحلیل آنها مستلزم این است که از ده ها، صدها و یا حتی هزاران رایانه به طور همزمان استفاده شود.

دشواری مدیریت و پردازش داده‌های کلان باعث شده تقاضا برای متخصصان مدیریت و پردازش اطلاعات در شرکت‌هایی مثل اوراکل، آی بی ام، مایکروسافت و  SAP افزایش یابد

داده‌های کلان چگونه به وجود می آیند؟

گفته می شود هم اکنون روزی 2.5 کینتی لیون بایت (هر کینتی لیون= یک میلیون تریلیون) به حجم داده ها و اطلاعات موجود در سراسر جهان افزوده می شود و سرعت افزایش داده ها نیز به حدی است که همیشه بیش از 90 درصد داده های موجود در دوسال گذشته تولید شده است. ابزار و فناوری های مختلفی که در دسترس انسان امروزی قرار دارد، از دوربین و میکروفون و تلسکوپ و گوشی تلفن گرفته تا شبکه های بیسیم و ماهواره ای همگی در حال تولید اطلاعات و افزایش حجمِ  داده‌های کلان هستند.

برآوردها نشان می دهد هم اکنون 4.6 میلیارد گوشی موبایل در سراسر جهان وجود دارد و حدود 1 تا 2 میلیارد نفر هم به اینترنت دسترسی دارند. تعداد افرادی که امروزه با داده ها و اطلاعات سرو کار دارند به مراتب بیشتر از گذشته است. شرکت سیسکو پیش بینی کرده است تا سال 2013 حجم تبادل داده ها سالانه 667 اگزابایت (هر اگزابایت= 1 میلیون ترابایت) افزوده خواهد شد.

مشکلات و انتقادات از داده های کلان

استفاده از داده‌های کلان با مشکلات بسیار زیادی همراه است. اول اینکه نمی توان با ابزار و نرم افزارهای معمولی مدیریت داده ها سراغ آنها رفت. مشکل بزرگ دیگر این است که کار با آنها مستلزم استفاده از ده ها نرم افزار و برنامه های موازی است که بر روی ده ها، صدها و یا هزاران سرور نصب شده است. برای اینکه بتوان حجم وسیعی از داده ها را در مدت زمان قابل قبولی مدیریت و پردازش کرد، باید از فناوری های ویژه ای استفاده کرد. هم اکنون برخی از مهمترین فناوری های در این زمینه عبارتند از: پردازش موازی در مقیاس وسیع (MPP)، شبکه های داده یابی، سیستم فایل های توزیعی (DFS)، پایگاه های داده توزیعی، پلتفرم ‌های رایانش ابری، اینترنت، سیستم های ذخیره قابل ارتقا و غیره.

دشواری مدیریت و پردازش داده‌های کلان باعث شده است که تقاضا برای متخصصان مدیریت و پردازش اطلاعات در شرکت هایی مثل اوراکل، آی بی ام، مایکروسافت و SAP افزایش یابد، به طوری که این شرکت ها تاکنون بیش از 150 میلیارد دلار به شرکت هایی پرداخته اند اند که در زمینه مدیریت و تحلیل داده ها تخصص دارند. ارزش صنعت پردازش و مدیریت داده ها هم اکنون بیش از 100 میلیارد دلار برآورد می شود و سالانه 10 درصد هم بدان افزوده می شود.