فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

دانلود مقاله داده کاوی

اختصاصی از فایل هلپ دانلود مقاله داده کاوی دانلود با لینک مستقیم و پر سرعت .

 

 

چکیده
از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نکرد.
حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در پایگاه داده های مربوط اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است (چنان که در عصر حاضر گفته می شود).

 


فهرست مطالب
فصل 1 مقدمه 9
1.1 مقدمه 10
فصل 2 مفاهیم داده کاوی 12
2.1 فرایند داده کاوی 13
2.2 دو مفهوم اساسی در داده کاوی 14
2.3 اساس داده کاوی 15
2.4 عوامل ایجاد داده کاوی 16
2.5 زیر بنای داده کاوی 16
2.6 عناصر داده کاوی 17
2.7 مراحل داده کاوی 18
2.8 وظایف داده کاوی 21
2.9 فنون داده کاوی 22
2.10 معماری داده کاوی 25
2.11 تکنیک های مختلف داده کاوی 26
فصل 3 کاربرد های داده کاوی 28
3.1 معرفی 29
3.2 کاربرد داده کاوی در کتابخانه ها و محیط های دانشگاهی 30
3.3 کاربرد داده کاوی در فعالیت شرکت ها 32
3.4 کاربرد داده کاوی در مدیریت و کشف فریب 32
3.5 کاربرد داده کاوی در صنعت خورده فروشی 33
3.6 داده کاوی در مدیریت ارتباط با مشتری 33
3.7 کاربرد داده کاوی در پزشکی 35
3.8 وب کاوی 35
3.9 تصویر کاوی 37

فهرست مطالب
فصل 4 مثال تفهیمی در مورد داده کاوی 38 مثال تفهیمی در مورد داده کاوی 39

 

فهرست اشکال
شکل 2.1 فنون داده کاوی 22
شکل 2.2 نمونه ای از یک درخت تصمیم 24
شکل 2.3 طبقه بندی در داده کاوی 27
شکل 3.1 داده کاوی در مدیریت ارتباط با مشتری 34

 



فهرست جداول
جدول 3.1 کاربردهای داده کاوی درکتابخانه ها 31

 

 

 

 

 

فصل اول
مقدمه

1.1 مقدمه :
درطول دهه گذشته باپیشرفت روزافزون کاربرد پایگاه داده ها،حجم داده های ثبت شده به طور متوسط هر5سال 2برابرمی شود. دراین میان سازمان هایی موفقند که بتوانند حداقل 7٪داده هایشان راتحلیل کنند. تحقیقات انجام یافته نشان داده است که سازمانها کمترازیک درصد داده هایشان رابرای تحلیل استفاده می کنند.
به عبارت دیگردرحالی که غرق درداده ها هستند تشنه دانش می باشند.
بنابراعلام دانشگاه MIT دانش نوین داده کاوی (Data mining) یکی ازده دانش درحال توسعه ای است که دهه آینده راباانقلاب تکنولوژی مواجه می سازد.این تکنولوژی امروزه دارای کاربرد بسیاروسیعی درحوزه های مختلف است به گونه ای که امروزه حدومرزی برای کاربرد این دانش درنظرنگرفته وزمینه های کاری این دانش راازذرات کف اقیانوس ها تااعماق فضامی دانند.
امروزه بیشترین کاربرد داده کاوی دربانکها، مراکزصنعتی وکارخانجات بزرگ، مراکزدرمانی وبیمارستانها ،مراکز تحقیقاتی ،بازاریابی هوشمند وبسیاری ازموارددیگرمی باشد.
داده کاوی پل ارتباطی میان علم وآمار،علم کامپیوتر، هوش مصنوعی ،الگو شناسی،فراگیری ماشین وبازنمایی بصری داده می باشد.داده کاوی فرآیندی پیچیده جهت شناسایی الگوها ومدل های صحیح، جدید وبه صورت بالقوه مفید، درحجم وسیعی ازداده می باشد، به طریقی که این الگوها ومدلها برای انسانها قابل درک باشد.داده کاوی به صورت یک محصول قابل خریداری نمی باشد،بلکه یک رشته علمی وفرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داده ها به معنی کنکاش داده های موجود درپایگاه داده وانجام تحلیل های مختلف برروی آن به منظوراستخراج اطلاعات می باشد.
داده کاوی فرآیندی تحلیلی است که برای کاوش داده ها( معمولاً حجم عظیمی ازداده ها) صورت می گیرد ویافته هابا به کارگیری الگوهایی ،احرازاعتبارمی شوند.هدف اصلی داده کاوی پیش بینی است.وبه صورت دقیق ترمی توان گفت:
" کاوش داده ها شناسایی الگوهای صحیح ،بدیع، سودمند وقابل درک ازداده های موجود دریک پایگاه داده است که بااستفاده ازپردازش های معمول قابل دستیابی نیستند."

 

 

 

فصل دوم
مفاهیم داده کاوی

2.1 فرایند داده کاوی
فرآیند داده کاوی شامل سه مرحله می باشد:
1- کاوش اولیه
2- ساخت مدل یاشناسایی الگو باکمک احرازاعتبار/ تایید
3- بهره برداری
مرحله 1: کاوش
معمولاً این مرحله باآماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها، تبدیل داده ها وانتخاب زیرمجموعه هایی ازرکوردها با حجم عظیمی ازمتغییرها( فیلدها) باشد.
سپس باتوجه به ماهیت مساله تحلیلی، این مرحله به مدل های پیش بینی ساده یا مدل های آماری وگرافیکی برای شناسایی متغییرهای مورد نظروتعیین پیچیدگی مدل ها برای استفاده درمرحله بعدی نیازدارد.
مرحله 2: ساخت واحرازاعتبارمدل
این مرحله به بررسی مدل های مختلف وگزینش بهترین مدل باتوجه به کارایی پیش بینی آن می پردازد.شاید این مرحله ساده به نظربرسد.اما این طورنیست.تکنیک های متعددی برای رسیدن به این هدف توسعه یافتند.و" ارزیابی رقابتی مدل ها" نام گرفتند. بدین منظورمدل های مختلف برای مجموعه داده های یکسان به کارمی روند تاکارایی شان باهم مقاسیه شود. سپس مدلی که بهترین کارایی راداشته باشد انتخاب می شود. این تکنیک ها عبارتندازStacking، Boosting،Bagging و Meta- Learning
مرحله 3: بهره برداری
آخرین مرحله مدلی راکه درمرحله قبل انتخاب شده است، درداده های جدید به کارمی گیرد تا پیش بینی های خروجی های موردانتظار راتولیدنماید.داده کاوی به عنوان ابزارمدیریت اطلاعات برای تصمیم گیری، عمومیت یافته است. اخیراً توسعه تکنیک های تحلیلی جدید دراین زمینه مورد توجه قرارگرفته است.(مثلاً Classification Tree) اما هنوزداده کاوی مبتنی براصول آماری نظیر(EDA: Exploratory Data Analysis)می باشد.
بااین وجود تفاوت عمده ای بین داده کاوی وEDA وجود دارد. داده کاوی بیشتربه برنامه های کاربردی گرایش داردتا ماهیت اصلی پدیده، به عبارتی داده کاوی کمترباشناسایی روابط بین متغییرها سروکاردارد.
2.2 دو مفهوم اساسی در داده کاوی
Bagging:
این مفهوم برای ترکیب رده بندی های پیش بینی شده ازچند مدل به کارمی رود.فرض کنید که قصددارید مدلی برای رده بندی پیش بینی بسازید ومجموعه داده ها مورد نظرتان کوچک است.شمامی توانید نمونه هایی (باجایگزینی ) راازمجموعه داده ها انتخاب وبرای نمونه های اصلی ازدرخت رده بندی استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهیدرسید.سپس برای پیش بینی باکمک درخت های متفاوت به دست آمده ازنمونه ها یک رای گیری ساده انجام دهید.رده بندی نهایی رده بندی ای خواهدبود که درخت های مختلف آن راپیش بینی کرده اند.
Boosting:
این مفهوم برای تولید مدل های چند گانه (برای پیش بینی یارده بندی ) به کارمی رود.Boosting ترکیبی از classifierها راتولید خواهدکرد.
2.3 اساس داده کاوی
اساس داده کاوی برمبنای سه فعالیت اصلی ذیلاً به آنها اشاره می شود:
1- هدف داده کاوی: داده های بی ارزش وعوامل بیرونی حذف می شوند.
2- فشرده سازی دادها : این عمل به وسیله کد گذاری داده ها صورت می گیرد.
3- کشف الگوها: الگوهای موجود درپایگاه داده ها ازقبیل طبقه بندی ،الگوهای زنجیری و..... کشف می شوند.
انتخاب یک سیستم داده کاوی
سیستم های داده کاوی درروش وعملکرد متفاوتند وحتی ممکن است باانواع کاملا متفاوتی ازمجموعه داده ها مطابق باشند.برای انتخاب یک سیستم داده کاوی باید شرایط زیردرنظرگرفته شوند:
1- نوع داده ها: که می تواند متنی، رابطه ای، زنجیری، فضایی و....باشد.
2- ساختار وویژگی های سرور ومشتری
3- منبع داده ها
4- روش وعملکرد سیستم
5- قابلیت اندازه گیری
6- استفاده ازابزارهای دیداری
7- زبان سیستم
8- گرافیکی بودن محیط سیستم
2.4 عوامل ایجاد داده کاوی
1- سیل اطلاعات
2- معاملات کامپیوتری،اطلاعات علمی،اطلاعات پزشکی اشخاص، بازیها،شبکه جهانی وب
3- کاربرداطلاعات به عنوان کالا
4- رشدانبارهای داده ونیازبه استخراج اطلاعات مفید
5- راهکارهای فناوری جدید اطلاعات
6- تحقیقات وپیشرفت درعلوم ازجمله هوش مصنوعی
2.5 زیربنای داده کاوی
تکنیک های داده کاوی نتیجه ی تحقیقات گسترده وبلندمدتی است که درطول سالها برای افزایش بازدهی تجاری موسسات بکاربرده می شدند.تحقیقات دراین زمینه اززمانی آغازشدکه برای نخستین باراطلاعات تجاری هرسازمان،برروی سیستم های ذخیره سازی آن زمان که ازنوع مغناطیسی بودند،ذخیره شدند. این رشته تحقیقات باتوسعه وپیشرفت سیستم های اطلاعات که قابلیت ذخیره حجم بیشتری ازداده ها رافراهم می کردندوهمچنین ازسرعت بسیاربالاتری درذخیره سازی وبازیابی اطلاعات برخورداربودند، اهمیت بیشتری یافت. روش های دسترسی تصادفی یارندم به اطلاعات وپیدایش روشهای حرکت درمیان داده ها،خصوصاً به صورت بلادرنگ، فناوری داده کاوی رامتحول ساخت.
روش های داده کاوی برپایه های زیر استوار هستند:
1- گردآوری حجم عظیمی داده
2- کامپیوترهای چند پردازنده ی قدرتمند
3- الگوریتمهای داده کاوی
2.6 عناصرداده کاوی
توصیف وکمک به پیش بینی دوکارکرد اصلی داده کاوی هستند.تحلیل داده مربوط به مشخصه های انتخابی متغییرها؛ ازگذشته وحال،ودرک الگوهای مثالی ازتحلیل توصیفی است.برآورد ارزش آینده یک متغییر وطرح ریزی کردن روندمثالی پیشگویانه داده کاوی است.
برای عملی شدن هریک ازدوکارکرد فوق الذکرداده کاوی، چند گام ابتدایی اما مهم باید اجراشوند که ازاین قرارند:
1- انتخاب دادها
2- پاک سازی داده ها
3- غنی سازی داده ها
4- کدگذاری داده ها
بادارابودن هدف کلی درمطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است.رکوردهای لازم می تواند ازانبارداده ها ویابانک اطلاعاتی عملیاتی استخراج شود.این رکوردهای داده جمع آوری شده، اغلب ازآنچه آلودگی داده ها نامگذاری شده است رنج می برند وبنابراین لازم است پاکسازی شوند تاازیکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده وکنترل سازگاری دامنه به عمل آید ممکن است داده های گرد آوری شده ازجنبه های خاصی ناقص یاناکافی باشد.دراین صورت داده های مشخصی باید گردآوری شوند تابانک اطلاعاتی اصلی راتکمیل کنند منابع مناسب برای این منظورباید شناسایی شوند.
این فرآیند مرحله غنی سازی داده ها راتکمیل می کند .یک سیستم کدگذاری مناسب معمولاً جهت انتقال داده ها به فرم ساختاربندی شده جدید، متناسب برای عملیات داده کاوی تعبیه می شود.
2.7 مراحل داده کاوی
داده کاوی درطی 10 مرحله انجام می گیرد.این مراحل به ترتیب عبارتنداز:
1- شناسایی هدف: دراین مرحله مشخص می شود که کاربربه چه چیزی می خواهددست یابد وچه نوع وچه سطحی ازاطلاعات رامی خواهد ازپایگاه داده ها به دست آورد به طوری که دروقت اوصرفه جویی شود.
2- انتخاب داده: پس ازاین که هدف تعیین شد باید داده انتخاب شود.درانتخاب داده باید شرایطی درنظرگرفته شود ازقبیل این که: آیافیلد مشترکی دربین داده های انتخاب شده وجود دارد که بتواند برای لینک شدن به یک پایگاه داده ی دیگرمورد استفاده قرارگیرد؛ آیا داده ای که قراراست کاوش شود قابل دسترسی هست، آیاپس ازاین که مجموعه داده ها تهیه شد درآن انباشتگی وجود داردخیر؛ چقدرازاین داده ها به هدف مورد به هدف نظرماهستند؟
3- آماده سازی داده ها: پس ازسازماندهی وانتخاب داده ها باید فرمت قابل استفاده داده ها مشخص شود. هدف ازاین مرحله تولید یک مجموعه آماده ازداده های کاوش شده است. شناسایی متغییرهای زاید وپارازیت ها دریک مجموعه داده ها ورفع این متغییرها ازاهداف این مرحله است.
4- ارزیابی داده ها: دراین مرحله ساختار داده ها باتوجه به شرایطی ارزیابی می شوند که این شرایط
عبارتندازاین که: ویژگی وساختار پایگاه داده ها چیست؛ شرایط کلی مجموعه داده ها چیست؛ توزیع مجموعه
دادها به چه صورت است؛ آیا ساختار داده ها بانیازاستفاده کنندگان مطابقت دارد؟
5- قالب بندی پاسخ: منظوراین است که پاسخ به چه فرمتی ارائه شود. به شکل تصویر،گزارش، ساختار درختی، شبکه عصبی و....
6- انتخاب ابزار: دراین مرحله ابزار مناسب برای داده کاوی انتخاب می شود.درموقع انتخاب ابزار مناسب برای داده کاوی باید درنظربگیریم که آیا این ابزارباکامپیوترکاربرمطابقت دارد یاخیر؟ یک ابزار داده کاوی باید به گونه ای باشد که نتایج تجزیه وتحلیل آن برای کاربر قابل درک باشد.همچنین باید بدانیم که ابزاری که انتخاب می کنیم چه نوع پاسخهایی راتولید می کند. باید به این نکته توجه کنیم که هیچ ابزاری به تنهایی قادربه تهیه پاسخ نیست؛ بلکه مجموعه ای ازابزارها به همراه مجموعه ای ازبرنامه ها مورد نیازاست.
7- مدلسازی: دراین مرحله فرآیند داده کاوی شروع می شود. این مرحله شامل جستجوی الگوها دریک مجموعه داده ها وطبقه بندی ،تصمیم گیری ،جمع آوری وارزشیابی داده ها می باشد.
مواردی رابایددرنظرگرفت ازقبیل: میزان خطاهای مدل تا چه حداست؟ آیا این کدل ها قابل پذیرش هستند؟ آیا امکان پیشرفت آنها وجود دارد؟ آیا برای یک مدل به داده های بیشتروروش های مختلفی نیازاست؟ آیا نیازاست که مجموعه داده ها تست شوند.....
8- اعتبار سازی یافته ها: این مرحله شامل تست کردن الگوهاست. درتجزیه وتحلیل داده کاوی باید درمورد نتایج تجزیه وتحلیل بامدیر،طراح،مجری طرح، تحلیل گرومهندسان بحث شود. به این دلیل که مطمئن شویم که یافته هها صحیح ومطابق بااهداف ماهستند. همچنین بررسی کنیم که آیا نتایج قابل دسترسی هستند؟ آیا نیازاست که به مراحل قبلی بازگردیم تا نتایج بهتری کسب کنیم؟ آیا ابزارهای دیگرداده کاوی می توانند مورد استفاده قرارگیرند به طوری که همانند نتایج استخراج شوند و.....
9- ارائه نتایج: این مرحله گزارش نهایی رابرای کاربرتهیه می کند. این گزارش باید با استناد به کل فرآیند داده کاوی باشد.باارائه نتایج به کاربرمشخص می شود که آیا این یافته ها مطابق بااهداف اوهستند؟ وآیا داده های بیشتری می توانند باعث پیشرفت تجزیه وتحلیل شوند؟
10- استفاده ازنتایج: هدف نهایی داده کاوی استفاده ازنتایج کشف شده برای ایجاد یک موقعیت جدید وبهتراست.

2.8 وظایف داده کاوی
باتوجه به مباحث مطرح شده می توان وظایف داده کاوی رابه صورت زیرخلاصه کرد:
توصیف: یافتن الگوهایی که داده ها راتوصیف می کنند.
پیش بینی : استفاده ازمتغییرها برای پیش بینی ارزش های ناشناخته دیگرمتغیرها
توضیح: اگرکاربری دریک زمان واحد به دواثردسترسی داشته باشداین طور نتیجه گیری می شود که
ارتباطی بین دواثروجوددارد.بنابراین اگرکاربردیگری تنها به یکی ازاین دواثردسترسی داشته باشد ازطریق
داده کاوی پیش بینی می شود که این کاربراحتمالاً به اثراول نیزعلاقمنداست.

2.9 فنون داده کاوی
فنون داده کاوی یک گروه نا متجانس راشکل می دهند چراکه هرتکنیکی که بتواند بینش جدیدی ازداده ها رااستخراج کند می تواند داده کاوی به حساب آید. برخی از ابزارهای رایج به کارگرفته شده تحت عنوان داده کاوی عبارتنداز:
1- ابزارهای پرس وجو
2- فنون آماری
3- مصورسازی
4- پردازش تحلیلی پیوسته
5- یادگیری مبتنی برمورد
6- درختان تصمیم گیری
7- قوانین وابستگی
8- شبکه های عصبی
9- الگوریتم ژنتیکی
شکل2.1 فنون داده کاوی

ابزارهای پرس وجو: ابزارهای متداول زبان پرس وجوی ساختاربندی شده درابتدا برای انجام تحلیل های اوایه به کارگرفته شدند که می تواند مسیرهایی برای تفحص بیشترنشان دهد.
فنون آماری: مشخصات اصلی داده ها لازم است باکاربرد انواع مختلفی ازتحلیل های آماری شامل جدول بندی ساده ومتقاطع داده ها ومحاسبه پارامترهای آماری مهم به دست آید.
مصورسازی: با نمایش داده ها درقالب نمودارها وعکس ها مانند نمودار پراکندگی ،گروه بندی داده ها درخوشه های متناسب تسهیل می شود. استنباط عمیق ترممکن است با به کارگیری تکنیک های گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: ازآن جا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روش های متعددی برای ترکیب دادن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک می کند وابزارهای ابتدا، انتهای پیوسته برای انجام پرس وجو ایجاد می کند.اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
یادگیری مبتنی برمورد: این تکنیک مشخصات گروه های داده ها را تحلیل می کند وبه پیش بینی هرنهاد واقع شده درهمسایگی شان کمک می کند.الگوریتم هایی که استرتژی یادگیری تعاملی رابرای کاوش دریک فضای چندین بعدی به کارمی گیرند برای این منظور مفیداست.

درختان تصمیم گیری: این تکنیک بخش های مختلف فهرست پاسخ های موفق داده شده مربوط به یک پرس
وجو رابازیابی می کند وبه این ترتیب به ارزیابی صحیح گزینه های مختلف کمک می کند.

 

شکل 2.2 نمونه ای از یک درخت تصمیم

 

قوانین وابستگی:اغلب مشاهده می شود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای ازداده های معین وجوددارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته وبه کارگرفته می شود.
شبکه های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش رابراساس کاربرد وارزیابی نتایج بهبود می بخشد.
الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع می شود ورشدش درآینده راباحضور دربرخی مراحل فرآیند محاسبه احتمال جهش تصادفی،همان طور که درتکامل طبیعی فرض می شود طرح ریزی می نماید.این تکنیک به چند روش می تواند عملی شود.وترکیب غیرقابل انتظار یانادری راازعواملی که درحال وقوع بوده ومسیرمنحنی طراحی داده ها را تغییر می دهند ،منعکس می کند.
گام نهایی فرآیند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج وکاربردهای پروژه درصورت به کارگیری آنها است.ومتن مناسب جداول وگرافیک ها رادرخود جای می دهد.بیشتراوقات گزارش دهی یک فرآیند تعاملی است که تصمیم گیرنده با داده ها درپایانه کامپیوتری بازی می کند وفرم چاپی برخی نتایج واسطه محتمل رابرای عملیات فوری بدست می آورد.
داده کاوی درتولید چهارنوع دانش زیرمفیداست:
1- دانش سطحی (کاربرد های SQL )
2- دانش چند وجهی (کاربردهای OALP)
3- دانش نهان( تشخیص الگووکاربردهای الگوریتم یادگیری ماشینی)
4- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)
2.10 معماری داده کاوی

 

 

فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد

تعداد صفحات این مقاله   37 صفحه

پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید

 


دانلود با لینک مستقیم


دانلود مقاله داده کاوی
نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد