تجزیه و تحلیل داده های اکتشافی (EDA) که در دهه ۱۹۷۰ توسط ریاضیدان آمریکایی جان توکی کشف شد، روشی برای تجزیه و تحلیل و تحقیق درباره مجموعه داده ها به منظور مشخص کردن خصوصیات اصلی آنها است. دانشمندان اغلب از روش های تجسم داده برای کشف الگوها و ناهنجاری ها، بررسی یا آزمایش فرضیات از طریق خلاصه آمار و نمایش های گرافیکی استفاده می کنند.
EDA فراتر از مدل سازی رسمی یا فرضیه است و حداکثر اطلاعات ممکن در مورد مجموعه داده ها و ساختار آن ها و شناسایی متغیرهای تأثیرگذار را ارائه می دهد. EDA همچنین می تواند به انتخاب مناسب ترین روش تجزیه و تحلیل داده ها برای یک پروژه مشخص کمک کند. با استفاده از EDA همچنین می توان اطلاعات مشخصی در مورد ایجاد لیست های رتبه بندی شده از عوامل مرتبط که به عنوان راهنما استفاده می شوند نیز به دست آورد.
روش های تک متغیره در یک بازه زمانی مشخص تنها یک متغیر (ستون داده) را در نظر می گیرند، در حالی که روش های چند متغیره همزمان دو یا چند متغیر را برای کاوش روابط میان آنها بررسی می کنند. بنابراین، در کل چهار نوع EDA وجود دارد – گرافیکی تک متغیره، گرافیکی چند متغیره، غیر گرافیکی تک متغیره و غیر گرافیکی چند متغیره. روش های گرافیکی تحلیل های انگاشتی (subjective) بیشتری ارائه می دهند و روش های کمی عینی تر هستند.
- غیر گرافیکی تک متغیره: این ساده ترین شکل تجزیه و تحلیل داده در بین چهار گزینه ذکر شده است. در این نوع تحلیل، داده هایی که مورد تجزیه و تحلیل قرار می گیرند فقط از یک متغیر واحد تشکیل شده اند. هدف اصلی این تجزیه و تحلیل، توصیف داده ها و یافتن الگوها است.
- گرافیکی تک متغیره: برخلاف روش غیر گرافیکی، روش گرافیکی تصویر کاملی از داده ها ارائه می دهد. سه روش اصلی تجزیه و تحلیل تحت این نوع آنالیز، هیستوگرام، نمودار ساقه و برگ (stem and leaf plot) و نمودارهای جعبه ای (box plots) هستند. هیستوگرام تعداد کل موارد برای طیف وسیعی از مقادیر را نشان می دهد. نمودار ساقه و برگ، همراه با مقادیر داده، شکل توزیع را نیز نمایش می دهد. نمودارهای جعبه ای به صورت گرافیکی خلاصه ای از حداقل، میانگین چهارک اول، چهارک سوم و حداکثر را نشان می دهند.
- غیر گرافیکی چند متغیره: روش غیر گرافیکی چند متغیره EDA به طور کلی رابطه بین متغیرهای مختلف داده را از طریق جدول بندی یا آمار نشان می دهد.
- گرافیکی چند متغیره: این نوع EDA رابطه بین دو یا چند مجموعه داده را نشان می دهد؛ یک نمودار میله ای، که در آن هر گروه یک سطح از یکی از متغیرها را نشان می دهد و هر میله در گروه نمایانگر سطوح متغیرهای دیگر است.
ابزارهای EDA
زبان پایتون و R دو ابزار علم داده هستند که برای ایجاد EDA بیشتر مورد استفاده قرار می گیرند.
پایتون: EDA را می توان با استفاده از پایتون برای شناسایی مقدار از دست رفته در یک مجموعه داده انجام داد. سایر کاربردها عبارتند از: توصیف داده ها، مدیریت داده های پرت و دریافت اطلاعات از نمودارها. به دلیل ساختار داخلی داده سطح بالا و تایپ پویا، پایتون به ابزاری جذاب برای EDA تبدیل شده است. تجزیه و تحلیل یک مجموعه داده کار دشواری است و زمان زیادی می برد. پایتون ماژول های منبع باز خاصی ارائه می دهد که قادرند کل فرآیند EDA را خودکار کرده و به شما در صرفه جویی در زمان کمک کنند.
R: زبان R به طور گسترده توسط دانشمندان داده و متخصصان آمار برای توسعه مشاهدات آماری و تجزیه و تحلیل داده ها استفاده می شود. R یک زبان برنامه نویسی منبع باز است که یک محیط نرم افزار رایگان برای محاسبات آماری و گرافیک فراهم می کند که توسط بنیاد R برای محاسبات آماری پشتیبانی می شود.
کلام آخر
به غیر از کاربردهایی که پیشتر در مورد آنها توضیح داده شد، EDA همچنین می تواند:
- خوشه بندی کی- میانگین (K-means clustering) را انجام دهد که یک الگوریتم یادگیری بدون نظارت است که در آن نقاط داده به خوشه ها اختصاص داده می شوند و به عنوان گروه های k نیز شناخته می شود. خوشه بندی کی- میانگین معمولاً در تقسیم بازار، فشرده سازی تصویر و تشخیص الگو استفاده می شود.
- EDA می تواند در مدل های پیش بینی مانند رگرسیون خطی برای پیش بینی نتایج مورد استفاده قرار بگیرد.
- همچنین در تجسم تک متغیره، دو متغیره و چند متغیره برای خلاصه آمار، ایجاد روابط بین هر متغیر و برای درک نحوه تعامل زمینه های مختلف داده ها با یکدیگر نیز مورد استفاده دارد.
منبع
analyticsindiamag.com