کشف دانش و داده‌کاوی تاریخ ثبت : 1398/09/17_15:32

کشف دانش و داده‌کاوی


داده کاوی شامل شش فعالیت معروف است:

کشف دانش و داده‌کاوی

داده کاوی فرآیند کشف الگوهای موجود در مجموعه‌ی بزرگی از داده‌ها است. داده‌کاوی شامل تکنیک‌هایی است که فصل مشترک یادگیری ماشین، آمار و سیستم‌های پایگاه داده است. هدف اصلی در داده‌کاوی استخراج اطلاعات از داده‌ها و تبدیل آنها به ساختاری قابل فهم برای استفاده در آینده است.
فعالیت اصلی داده کاوی تحلیل نیمه خودکار یا خودکار حجم وسیعی از داده‌ها برای استخراج الگوهای ناشناخته و مورد نظر می-باشد. این الگوها شامل گروه‌های داده‌های گردآوری شده (تحلیل خوشه بندی)، کشف و شناسایی داده‌های پرت و وابستگی و قواعد انجمنی می‌باشد. باید به این نکته توجه داشت که هیچ یک از فعالیت‌های مربوط به جمع‌آوری داده‌ها، آماده سازی آنها، تفسیر نتایج و گزارش دهی بخش‌هایی از مراحل داده کاوی نمی‌باشند. بلکه متعلق به فرآیند "کشف دانش از پایگاه داده" هستند.

 

فرآیند داده‌کاوی:

 

فرآیند کشف دانش از پایگاه داده (KDD) شامل مراحل زیر می‌باشد:


۱- انتخاب، ۲- پیش پردازش، ۳- انتقال و تبدیل، ۴- داده کاوی، ۵- تفسیر و ارزیابی


می‌توان این فرآیند را به صورت زیر نیز بیان نمود:


۱- شناخت کسب و کار، ۲- شناخت داده‌ها، ۳- فراهم آوردن داده‌ها، ۴- مدلسازی، ۵- ارزیابی، ۶- گسترش

در حالت کلی این گام‌ها به صورت زیر قابل خلاصه می‌باشند:


۱- پیش پردازش، ۲- داده کاوی، ۳- اعتبار سنجی نتایج

۱) پیش پردازش:

پیش از به کارگیری الگوریتم های داده کاوی، یک مجموعه‌‌ی هدف از داده‌ها باید ایجاد شود. با توجه به آنکه داده کاوی تنها می-تواند الگوهای موجود در مجموعه‌ی داده‌های تحت بررسی را آشکار سازد، مجموعه‌ی داده‌های هدف باید به اندازه‌ی کافی بزرگ باشد تا حاوی این الگوها باشد، در عین حال باید به اندازه‌ای داده‌ها مختصر باشند تا در زمان قابل قبول تحلیل و پردازش شوند.

منبع معمول برای داده کاوی انباره‌ی داده می‌باشد. پیش پردازش اساساً تحلیل مجموعه‌ی داده‌های چندمتغیره پیش از داده کاوی می‌باشد. سپس مجموعه‌ی داده‌های هدف تمیز می‌گردد. تمیز کرده داده‌ها به منزله‌ی حذف مشاهدات دارای نویز و دارای داده‌های از دست رفته می‌باشد.

۲) داده کاوی:

داده کاوی شامل شش فعالیت معروف است:


۱-۲- کشف داده‌های پرت:

این فعالیت شامل شناسایی داده‌های غیر عادی می‌باشد که ممکن است مورد توجه باشند و یا نشانگر خطا در ثبت داده‌ها باشند. تکنیک‌های کشف داده‌های پرت در حالت کلی به سه دسته قابل دسته بندی می‌باشند. دسته‌ی نخست کشف آلودگی غیر نظارتی می‌باشند. این تکنیک‌ها آلودگی را در یک مجموعه‌ی داده‌ای غیر نشان دار کشف می‌کنند.

در این مجموعه فرض می‌شود که اکثریت داده‌ها طبیعی بوده و هدف کشف داده‌هایی می‌باشد که تناسب کمتری با سایر داده‌ها دارند. کشف آلودگی نظارتی نیازمند یک مجموعه داده است که با نشان‌های طبیعی و غیر طبیعی نشان گذاری شده باشد. همچنین این تکنیک‌ها یک ابزار دسته بندی آموزشی را نیز نیاز دارند. کشف آلودگی نیمه نظارتی مدلی را که نشان دهنده‌ی رفتار طبیعی می‌باشد با استفاده از یک مجموعه‌ی آموزشی از داده‌های طبیعی ایجاد می‌کنند. سپس احتمال اینکه یک مشاهده با استفاده از مدل آموزش داده شده تولید شود را محاسبه می‌کنند.


برخی از تکنیک‌های کشف داده‌های پرت عبارتند از:

تکنیک‌های مبتنی بر چگالی، تکنیک‌های مبتنی بر همبستگی برای داده‌ها با ابعاد بالاتر، ماشین‌های بردار پشتیبان تک کلاسی، شبکه‌های عصبی، شبکه‌های بیضی، مدل‌های مارکوف پنهان، تحلیل خوشه بندی، انحراف از قواعد انجمنی، استفاده از منطق فازی


۲-۲- قواعد انجمنی:


این تحلیل به دنبال کشف ارتباط بین متغیرها می‌باشد. در واقع هدف اصلی این تحلیل‌ها کشف ارتباطات قوی بین متغیرها با استفاده از معیارهای مختلف می‌باشد.


۳-۲- خوشه بندی:


هدف این دسته از تحلیل‌ها کشف گروه‌ها و ساختارهای موجود در داده‌ها به گونه‌ای می‌باشد که داده‌های موجود در هر گروه به گونه‌ای به یکدیگر شبیه باشند. برخی از تکنیک‌هایی که در این بخش مورد استفاده قرار می‌گیرند عبارتند از مدل‌های اتصالی، مدل‌های مرکزی، مدل‌های توزیع، مدل‌های چگالی، مدل‌های زیر فضا، مدل‌های زیرگروهی، مدل‌های مبتنی بر گروه، مدل‌های عصبی.


۴-۲- دسته بندی:


این تحلیل به دنبال تعمیم یک ساختار شناخته شده به داده‌های جدید می‌باشد.


۵-۲- رگرسیون


۶-۲- نمایش

 

سپاس از همراهی شما heart

نرم افزار مدیریت پروژه طیف وسیعی از راه حل ها را توصیف می کند که به افراد و تیم ها اجازه می دهد مسیر پیشرفت پروژه های پیچیده را از زمان تایید آنها تا تکمیل و یا راه اندازی آنها پیگیری کنند.

نرم افزار مدیریت پروژه آنلاین فارسی . نرم افزار مدیریت پروژه فارسینرم افزار مدیریت پروژهمدیریت پروژه. تسکولو ، نرم افزار مدیریت پروژه تسکولو



کلمه کلیدی :

کشف دانش و داده‌کاوی

نام نویسنده :شکیبا خلج/الگام