داده کاوی فرآیند کشف الگوهای موجود در مجموعهی بزرگی از دادهها است. دادهکاوی شامل تکنیکهایی است که فصل مشترک یادگیری ماشین، آمار و سیستمهای پایگاه داده است. هدف اصلی در دادهکاوی استخراج اطلاعات از دادهها و تبدیل آنها به ساختاری قابل فهم برای استفاده در آینده است.
فعالیت اصلی داده کاوی تحلیل نیمه خودکار یا خودکار حجم وسیعی از دادهها برای استخراج الگوهای ناشناخته و مورد نظر می-باشد. این الگوها شامل گروههای دادههای گردآوری شده (تحلیل خوشه بندی)، کشف و شناسایی دادههای پرت و وابستگی و قواعد انجمنی میباشد. باید به این نکته توجه داشت که هیچ یک از فعالیتهای مربوط به جمعآوری دادهها، آماده سازی آنها، تفسیر نتایج و گزارش دهی بخشهایی از مراحل داده کاوی نمیباشند. بلکه متعلق به فرآیند "کشف دانش از پایگاه داده" هستند.
فرآیند کشف دانش از پایگاه داده (KDD) شامل مراحل زیر میباشد:
۱- انتخاب، ۲- پیش پردازش، ۳- انتقال و تبدیل، ۴- داده کاوی، ۵- تفسیر و ارزیابی
میتوان این فرآیند را به صورت زیر نیز بیان نمود:
۱- شناخت کسب و کار، ۲- شناخت دادهها، ۳- فراهم آوردن دادهها، ۴- مدلسازی، ۵- ارزیابی، ۶- گسترش
در حالت کلی این گامها به صورت زیر قابل خلاصه میباشند:
۱- پیش پردازش، ۲- داده کاوی، ۳- اعتبار سنجی نتایج
۱) پیش پردازش:
پیش از به کارگیری الگوریتم های داده کاوی، یک مجموعهی هدف از دادهها باید ایجاد شود. با توجه به آنکه داده کاوی تنها می-تواند الگوهای موجود در مجموعهی دادههای تحت بررسی را آشکار سازد، مجموعهی دادههای هدف باید به اندازهی کافی بزرگ باشد تا حاوی این الگوها باشد، در عین حال باید به اندازهای دادهها مختصر باشند تا در زمان قابل قبول تحلیل و پردازش شوند.
منبع معمول برای داده کاوی انبارهی داده میباشد. پیش پردازش اساساً تحلیل مجموعهی دادههای چندمتغیره پیش از داده کاوی میباشد. سپس مجموعهی دادههای هدف تمیز میگردد. تمیز کرده دادهها به منزلهی حذف مشاهدات دارای نویز و دارای دادههای از دست رفته میباشد.
۲) داده کاوی:
داده کاوی شامل شش فعالیت معروف است:
۱-۲- کشف دادههای پرت:
این فعالیت شامل شناسایی دادههای غیر عادی میباشد که ممکن است مورد توجه باشند و یا نشانگر خطا در ثبت دادهها باشند. تکنیکهای کشف دادههای پرت در حالت کلی به سه دسته قابل دسته بندی میباشند. دستهی نخست کشف آلودگی غیر نظارتی میباشند. این تکنیکها آلودگی را در یک مجموعهی دادهای غیر نشان دار کشف میکنند.
در این مجموعه فرض میشود که اکثریت دادهها طبیعی بوده و هدف کشف دادههایی میباشد که تناسب کمتری با سایر دادهها دارند. کشف آلودگی نظارتی نیازمند یک مجموعه داده است که با نشانهای طبیعی و غیر طبیعی نشان گذاری شده باشد. همچنین این تکنیکها یک ابزار دسته بندی آموزشی را نیز نیاز دارند. کشف آلودگی نیمه نظارتی مدلی را که نشان دهندهی رفتار طبیعی میباشد با استفاده از یک مجموعهی آموزشی از دادههای طبیعی ایجاد میکنند. سپس احتمال اینکه یک مشاهده با استفاده از مدل آموزش داده شده تولید شود را محاسبه میکنند.
تکنیکهای مبتنی بر چگالی، تکنیکهای مبتنی بر همبستگی برای دادهها با ابعاد بالاتر، ماشینهای بردار پشتیبان تک کلاسی، شبکههای عصبی، شبکههای بیضی، مدلهای مارکوف پنهان، تحلیل خوشه بندی، انحراف از قواعد انجمنی، استفاده از منطق فازی
۲-۲- قواعد انجمنی:
این تحلیل به دنبال کشف ارتباط بین متغیرها میباشد. در واقع هدف اصلی این تحلیلها کشف ارتباطات قوی بین متغیرها با استفاده از معیارهای مختلف میباشد.
۳-۲- خوشه بندی:
هدف این دسته از تحلیلها کشف گروهها و ساختارهای موجود در دادهها به گونهای میباشد که دادههای موجود در هر گروه به گونهای به یکدیگر شبیه باشند. برخی از تکنیکهایی که در این بخش مورد استفاده قرار میگیرند عبارتند از مدلهای اتصالی، مدلهای مرکزی، مدلهای توزیع، مدلهای چگالی، مدلهای زیر فضا، مدلهای زیرگروهی، مدلهای مبتنی بر گروه، مدلهای عصبی.
۴-۲- دسته بندی:
این تحلیل به دنبال تعمیم یک ساختار شناخته شده به دادههای جدید میباشد.
۵-۲- رگرسیون
۶-۲- نمایش
برچسب ها :
کشف دانش و دادهکاوی نرم افزار مدیریت پروژه نرم افزار مدیریت پروژه فارسی نرم افزار مدیریت پروژه آنلاین بهترین نرم افزار مدیریت پروژه نرم افزار مدیریت پروژه ایرانی مدیریت پروژهکلمه کلیدی :
کشف دانش و دادهکاوینام نویسنده :شکیبا خلج/الگام