دانشمندان علم داده روی الگوریتم های پیچیده یادگیری ماشین که توسط زبان های برنامه نویسی پیچیده ایجاد شده اند تمرکز دارند. سایر فرآیندهایی که یک دانشمند علم داده با آنها سر و کار دارد نیز به همین میزان پیچیده است. وقتی مدل های خود را می سازید باید در زمینه های توسعه وب، آمار، مهندسی نرم افزار و موارد دیگر نیز تخصص داشته باشید. در نتیجه، باید راهی برای هضم آسان تر این داده های پیچیده و در عین حال مفید و قابل توجه وجود داشته باشد. روش اصلی که یک دانشمند داده با استفاده از آن می تواند نه تنها با خود، بلکه با ذینفعان فاقد دانش فنی نیز ارتباط برقرار کند، مصورسازی (visualization) است. برخی از دلایل اصلی – از کاوش داده ها تا توضیح نتایج برای دانشمندان علم داده – که دانستن تکنیک های مصورسازی را ضروری می کنند در ادامه شرح داده خواهد شد. اگر می خواهید با چهار دلیل اصلی که چرا یک دانشمند علم داده باید مصورسازی داده هم بداند آشنا شوید، لطفاً به مطالعه متن ادامه دهید.
توضیح فرآیندهای پیچیده به سادگی
به عنوان یک دانشمند داده، شما نمی توانید بدون اینکه ابتدا از طرف ذینفعان چراغ سبز دریافت کرده باشید، یک پروژه را آغاز کنید. برخی از ذینفعان تا زمانی که مفاهیم و فرآیندهای علم داده را بخوبی برایشان توضیح ندهید، آنها را به درستی درک نخواهند کرد. توضیح این فرایند ها و مفاهیم به عهده دانشمند علم داده است.
به عنوان مثال، قصد دارید طرحی را شروع کنید که به شرکت کمک می کند تا محصولات را به سرعت در یک وب سایت تجارت الکترونیکی طبقه بندی کند. برای اثبات سودمند بودن این روند، باید روند کار، منابع مورد انتظار و نتایج احتمالی را مشخص کنید.
در ادامه یک نوشتار ساده برای آنچه بعدا باید به صورت بصری نشان دهید ارائه می شود:
- انتظار داریم این پروژه ۲ ماه طول بکشد
- طبقه بندی لباس به صورت دستی بسیار زمان بر است
- هدف این است که لباس ها را به طور خودکار و با صرفه جویی در وقت و هزینه به شکل دقیق طبقه بندی کنیم.
- ما به این داده ها نیاز داریم
- ما به این تعداد مهندس نرم افزار، دانشمند علم داده و مدیر محصول نیاز داریم
- ما دسترسی به این پلت فرم ها را نیاز داریم
- ما نتایج را وارد این جدول خواهیم کرد
- ما نتایج را بررسی کرده و آنها را به شکل بصری نمایش می دهیم
برای جمع بندی این فرآیند، می توانید تصویری ایجاد کنید که روند پیشنهادی و همچنین جدول زمانی مربوطه را بهتر توصیف می کند. روش های مختلفی برای اجرای این مصورسازی وجود دارد. می توانید با استفاده از ابزارهایی مانند PowerPoint، Google Slides یا برخی محصولات جامع تر از جمله Jira،Lucid Charts ،Draw.io و ProductPlan، مفهوم مورد نظر خود را اثبات کرده و نماش دهید.
- PowerPoint / Google Slides: ابزارهای مصورسازی با کاربری آسان
- Jira: ابزاری برای سازماندهی وظایف و همکاری بین تیم ها و درون آنها
- Lucarid Charts / io: ابزاری برای مصورسازی روابط بین داده ها
- ProductPlan: ابزاری برای مصورسازی جدول زمانی
توضیح فرآیندهای پیچیده با سهولت بیشتر با استفاد از مصورسازی در نهایت به دانشمند داده و سهامداران کمک می کند تا به اهداف نهایی خود برسند.
توضیح آسان تر نتایج پیچیده
پس از حل مشکل تبیین یک فرآیند پیچیده برای دیگران، می دانیم که چگونه می توان نتایج را نیز برای دیگران به راحتی و به روشی قابل تفسیر توضیح داد. بله؛ با استفاده از مصورسازی. فرض می کنیم که الگویی را از قبل تهیه کرده ایم و حالا باید نتایج را برای ذینفعان توضیح دهیم. یکی از ساده ترین و بهترین روش ها برای توضیح نتایج، استفاده از نمودارهای ساده است. به عنوان مثال، نتایج یک مدل را از نظر مقدار در هر گروه بررسی خواهیم کرد. یک راه سریع برای نشان دادن عملکرد ایالات متحده در هر ایالت استفاده از نقشه های حرارتی است. به عنوان مثال با توجه به مقیاس مربوطه می توانید از کد های رنگی استفاده کنید. درک این مصورسازی بسیار آسان تر از درک پرونده ای با سطر و ستون های بسیار زیاد و محتوای طولانی است.
ابزارهای بی شماری وجود دارد که می توان از آنها برای توصیف بصری داده ها استفاده کرد. در ادامه به برخی از محبوب ترین این ابزارها اشاره می شود:
- Tableau
- Google Data Studio
- Looker
- PowerBI
- Matplotlib library
- library Seaborn
نمایش تجزیه و تحلیل داده های اکتشافی
همانظور که نمایش نتایج الگوریتم یادگیری ماشین به ذینفعان سودمند است، مصور سازی تجزیه و تحلیل داده ها برای شما و تیمتان نیز مفید است. از ابزارهایی که بالاتر به آنها اشاره شد می توان در این مورد هم استفاده کرد. مهم است که قبل از اجرای مراحل فرآیند علم داده (مانند مقایسه الگوریتم یادگیری ماشین)، اطلاعات را به خوبی درک کنید. می توانید داده ها – ستون ها و سطرها را نیز از نظر بصری مقایسه کنید.
روش دیگر برای مصورسازی آسان داده ها استفاده از Pandas Profiling است. با استفاده از یک خط کد، df.profile_report()، می توانید نمودارهای متداول و قدرتمندی مانند آمار توصیفی از طریق هیستوگرام، نقشه حرارتی و ماتریس را نمایش دهید. این گونه تصاویر برای مطالعه دقیق داده ها و تشخیص ناهنجاری ها، روندها و روابط عالی است. این تجزیه و تحلیل بصری می تواند با بهره گیری از الگوریتم یادگیری ماشین باعث صرفه جویی در وقت شما هم بشود.
پایش روند عملکرد مدل
با استفاده از مصورسازی، پس از اجرای کارهای سخت، می توانید عملکرد مدل خود را به شکلی جذاب ببینید و دنبال کنید. می توانید هشدارها را برای زمانی که میزان دقت یا معیار خطا (به عنوان مثال خطای RMSE) بالاتر یا زیر آستانه مشخص شده قرار می گیرد تنظیم کنید. شاید با گذشت زمان، متوجه شوید که مدل شما به خوبی کار نمی کند؛ در این صورت یا به داده های بیشتری احتیاج دارید یا باید مورد دیگری را در مدل خود تغییر دهید تا مطمئن شوید بهتر از مدل قبلی خواهد بود.
در ادامه به چند ابزار که با استفاده از آنها می توانید روند عملکرد مدل را مصورسازی کنید اشاره می شود:
- Tableau – تغییرات و تحلیل روند
- Looker – ترکیب نتایج در داشبورد
کلام آخر
علم داده می تواند بسیار پیچیده باشد، اما می توان با استفاده از مصورسازی، درک آن را ساده تر کرد. در مورد اینکه چرا دانستن برنامه نویسی و آمار برای یک دانشمند علم داده کافی نیست، بلکه آگاهی از تکنیک های مصورسازی هم به همان اندازه اهمیت دارد چند دلیل آورده شد.
چهار دلیل اصلی در این مورد:
- توضیح فرآیندهای پیچیده به روشی آسان
- توضیح نتایج پیچیده به روشی آسان
- نمایش تجزیه و تحلیل داده های اکتشافی
- پایش روند عملکرد مدل
منبع:
towardsdatascience.com
شرکت تحقیقات بازاریابی راهبر بازار همواره می کوشد تا با ارائه بروز ترین آمارها و راهکارهای تحقیقات بازاریابی بومی شده در کشور، نقش خود را بعنوان مرجعی برای داده های لازم در برنامه های بازاریابی کسب و کارها بخوبی ایفا نماید. نیازهای اطلاعاتی و پژوهشی در کسب و کار خود را با موسسه راهبر بازار در میان بگذارید و از مشورت رایگان در این زمینه بهره مند شوید.برای دریافت اطلاعات بیشتر راجع به قیمت و نحوه سفارش، با راهبر بازار در تماس باشید: