فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فایل هلپ

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

مقاله داده کاوی

اختصاصی از فایل هلپ مقاله داده کاوی دانلود با لینک مستقیم و پر سرعت .

مقاله داده کاوی


مقاله داده کاوی

امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.

با استفاده ار پرسش های ساده درSQL  و ابزارهای گوناگون گزارش گیری معمولی، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد، کاربران هر چقدرحرفه ای و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند، هزینه عملیات از نظر نیروی انسانی و مالی بسیار بالا است.

نوع فایل ورد

تعداد صفحات 9

 

بنابراین میشود گفت که درحال حاضر یک تغییر الگو از مدل سازی و تحلیل های کلاسیک برپایه اصول اولیه به مدل های درحال پیشرفت و تحلیل های مربوط بطور مستقیم از داده ها وجود دارد.

داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.

تعاریف داده کاوی

در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند. در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است.


دانلود با لینک مستقیم


مقاله داده کاوی

تحقیق درباره بررسی و نگاهی عمیق به داده کاوی و کشف قوانین وابستگی آن

اختصاصی از فایل هلپ تحقیق درباره بررسی و نگاهی عمیق به داده کاوی و کشف قوانین وابستگی آن دانلود با لینک مستقیم و پر سرعت .

تحقیق درباره بررسی و نگاهی عمیق به داده کاوی و کشف قوانین وابستگی آن


تحقیق درباره بررسی و نگاهی عمیق به داده کاوی و کشف قوانین وابستگی آن

فرمت فایل : word (قابل ویرایش) تعداد صفحات : 51 صفحه

 

 

 

 

چکیده:

با افزایش سیستمهای کامپیوتر و گسترش تکنولوژی اطلاعات , بحث اصلی در علم کامپیوتر از چگونگی جمع آوری اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سیستمهای داده کاوی ,این امکان را به کاربر می دهند که بتواند انبوه داده های جمع آوری شده را تفسیر کنند و دانش نهفته در آن را استخراج نمایند .

داده کاوی به هر نوع کشف دانش و یا الگوی پنهان در پایگاه داده ها اطلاق می شود . امروزه داده کاوی به عنوان یکی از مهمترین مسائل هوش مصنوعی و پایگاه داده ، محققان بسیاری را به خود جذب کرده است . در این تحقیق ابتدا نگاه کلی بر داده کاوی ، استراتژیهای داده کاوی و... داریم ، سپس  مسأله کشف قوانین وابستگی در پایگاه داده را به تفضیل بررسی کردیم و نگاهی به الگوریتمهای موجود برای آن داشتیم . سپس مسأله کشف قوانین وابستگی در پایگاه داده های پویا را مورد بحث قرار دادیم و الگوریتم های ارائه شده مربوطه را مطرح کردیم

 

مقدمه :

هدف از این اراِئه و تحقیق بررسی روشهای مطرح داده کاوی است .داده کاوی هر نوع استخراج دانش و یا الگواز داده های موجود در پایگاه داده است که این دانشها و الگوها ضمنی و مستتر در داده ها هستند ,از داده کاوی می توان جهت امور رده بندی (Classification ) و تخمین (Estimation) ,پیش بینی (Prediction) و خوشه بندی (Clustering)استفاده کرد .داده کاوی دارای محاسن فراوانی است . از مهمترین آن محاسن کشف کردن دانش نهفته در سیستم است که به شناخت بهتر سیستم کمک می کند .به عنوان مثال می توان به استفاده ترکیبی از روش خوشه بندی جهت تخصیص بودجه به دسته های مختلف  از کتب اشاره کرد .

سیستمهای داده کاوی تقریبا از اوایل دهه 1990 مورد توجه قرار گرفتند . علت این امر نیز آن بود که تا آن زمان سازمانها بیشتر در پی ایجاد سیستمهای عملیاتی کامپیوتری بودند که به وسیله آنها بتوانند داده های موجود در سازمان خود را  سازماندهی کنند . پس از ایجاد این سیستمها ,روزانه حجم زیادی از اطلاعات جمع آوری میشد که تفسیر کردن آنها از عهده انسان خارج بود . به همین دلیل , نیاز به تکنیکی بود که از میان انبوه داده معنی استخراج کند و داده کاوی به همین منظور ایجاد و رشد یافت .

بنابر این هدف اصلی از داده کاوی ,کشف دانش نهفته در محیط مورد بررسی است که این دانش می تواند شکلهای گوناگونی داسته باشد . دانش استخراج شده می تواند به فرم الگوهای موجود در داده ها باشد که کشف این الگوها منجر به شناخت بهتر سیستم نیز می شود . الگوهای استخراجی عموما بیانگر روابط بین ویژگیهای سیستم هستند بعنوان مثال در سیستم تجاری یک الگو می تواند بیانگر رابطه بین نوع کالا و میزان تقاضای آن باشد .

در این تحقیق داده کاوی مورد بحث قرار می گیرد . علل استفاده از داده کاوی و منابعی که داده کاوی بر روی آنها اعمال می شود ,علاوه بر این خلاصه ای از روشهای رایج داده کاوی ارائه شده است . تکنیکهای داده کاوی و قوانین وابستگی و الگوریتمهای موجود (Apriori , Aprior TID, Partition, Eclat ,Max Eclat , Vector ) و الگوریتم با ساختار  Trie وfp grow و الگوریتمهای کاهشی مورد بررسی قرار می گیرند و در هر مورد مثالها , موارد کاربرد ,تکنیکها و نقاط قوت و ضعف  مورد بررسی قرار گرفته اند .

ادامه...


دانلود با لینک مستقیم


تحقیق درباره بررسی و نگاهی عمیق به داده کاوی و کشف قوانین وابستگی آن

ارزیابی قوانین انجمنی در داده کاوی

اختصاصی از فایل هلپ ارزیابی قوانین انجمنی در داده کاوی دانلود با لینک مستقیم و پر سرعت .

یکی از قدرتمندترین تکنیکها برای یافتن الگو در دادهها ،دادهکاوی است. در این مقاله، روشی برای ارزیابی قوانین انجمنی از
نقطه نظر تئوری اطلاعات پیشنهاد شده است که محاسبه آن را بر اساس مشخصههای شناخته شده قوانین انجمنی یعنی سه
پارامتر، حمایت(C1) ، بهبود(C2) و اعتماد(C3)امکانپذیر میسازد.
روش مورد نظر اجازه میدهد یک مدل خطی روی دادهها ایجاد کنیم که برای ارزیابی و فیلترینگ مفید است. در کنار آن تحلیل
ارزش خود توصیفی قانون انجمنی روی سه پارامتر انجام شده است.
این مدل به ما اجازه میدهد قوانین انجمنی با ارزش های متفاوت از CCC3 را با هم مقایسه کنیم خود توصیفی یک قانون
انجمنی می تواند برای فیلتر کردن و کشف قانون در پایگاه داده استفاده گردد. پیدا کردن قانون انجمنی با ارزشهای پائین در
CCC3 هزینههای اضافی در بردارد که به تحقیقات جداگانهای نیازمند است.


دانلود با لینک مستقیم


ارزیابی قوانین انجمنی در داده کاوی

افزایش دقت کلاسه بندی در داده کاوی با استفاده از ترکیب کلاسه بندها

اختصاصی از فایل هلپ افزایش دقت کلاسه بندی در داده کاوی با استفاده از ترکیب کلاسه بندها دانلود با لینک مستقیم و پر سرعت .

اگر چه بعضی از کلاسه بندها در برخی موارد نسبت به بقیه نتایج بهتری تولید می کنند ولی هیچ یک از آنها بر سایرین برتری
نداشته و نمی تواند تمام داده ها را بدون هیچ خطایی کلاسه بندی کند. هر کلاسه بند قوت ها و ضعف های خاص خود را دارد. ترکیب
مناسب کلاسه بندها، می تواند نتایج کلاسه بندی بهتری نسبت به هر کلاسه بند و حتی بهترین آنها تولید کند.
در این مقاله، روشی برای ترکیب کلاسه بندها پیشنهاد می شود که نتایج کلاسه بندهای نزدیکترین k- همسایه، درخت تصمیم و
بیز ساده را با استفاده از تئوری ترکیب باورها ترکیب می کند. این روش بهمراه سایر روشهای ترکیبی معروف بر روی دو مجموعه داده
با کاربردهای مختلف مورد ارزیابی قرار گرفته و نشان داده می شود که علاوه بر بیشتر بودن دقت روش پیشنهادی نسبت به کلاسه
بندهای بکار رفته در ترکیب، نسبت به سایر روش های ترکیبی نیز از دقت بیشتری برخوردار است. بعلاوه با توجه به این آزمایشات،
تاثیر تعداد و نوع کلاسه بندها و همچنین ترتیب ترکیب آنها نیز مورد بررسی و تحلیل قرار می گیرند.


دانلود با لینک مستقیم


افزایش دقت کلاسه بندی در داده کاوی با استفاده از ترکیب کلاسه بندها

دانلود مقاله داده کاوی

اختصاصی از فایل هلپ دانلود مقاله داده کاوی دانلود با لینک مستقیم و پر سرعت .

 

 

چکیده
از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نکرد.
حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در پایگاه داده های مربوط اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است (چنان که در عصر حاضر گفته می شود).

 


فهرست مطالب
فصل 1 مقدمه 9
1.1 مقدمه 10
فصل 2 مفاهیم داده کاوی 12
2.1 فرایند داده کاوی 13
2.2 دو مفهوم اساسی در داده کاوی 14
2.3 اساس داده کاوی 15
2.4 عوامل ایجاد داده کاوی 16
2.5 زیر بنای داده کاوی 16
2.6 عناصر داده کاوی 17
2.7 مراحل داده کاوی 18
2.8 وظایف داده کاوی 21
2.9 فنون داده کاوی 22
2.10 معماری داده کاوی 25
2.11 تکنیک های مختلف داده کاوی 26
فصل 3 کاربرد های داده کاوی 28
3.1 معرفی 29
3.2 کاربرد داده کاوی در کتابخانه ها و محیط های دانشگاهی 30
3.3 کاربرد داده کاوی در فعالیت شرکت ها 32
3.4 کاربرد داده کاوی در مدیریت و کشف فریب 32
3.5 کاربرد داده کاوی در صنعت خورده فروشی 33
3.6 داده کاوی در مدیریت ارتباط با مشتری 33
3.7 کاربرد داده کاوی در پزشکی 35
3.8 وب کاوی 35
3.9 تصویر کاوی 37

فهرست مطالب
فصل 4 مثال تفهیمی در مورد داده کاوی 38 مثال تفهیمی در مورد داده کاوی 39

 

فهرست اشکال
شکل 2.1 فنون داده کاوی 22
شکل 2.2 نمونه ای از یک درخت تصمیم 24
شکل 2.3 طبقه بندی در داده کاوی 27
شکل 3.1 داده کاوی در مدیریت ارتباط با مشتری 34

 



فهرست جداول
جدول 3.1 کاربردهای داده کاوی درکتابخانه ها 31

 

 

 

 

 

فصل اول
مقدمه

1.1 مقدمه :
درطول دهه گذشته باپیشرفت روزافزون کاربرد پایگاه داده ها،حجم داده های ثبت شده به طور متوسط هر5سال 2برابرمی شود. دراین میان سازمان هایی موفقند که بتوانند حداقل 7٪داده هایشان راتحلیل کنند. تحقیقات انجام یافته نشان داده است که سازمانها کمترازیک درصد داده هایشان رابرای تحلیل استفاده می کنند.
به عبارت دیگردرحالی که غرق درداده ها هستند تشنه دانش می باشند.
بنابراعلام دانشگاه MIT دانش نوین داده کاوی (Data mining) یکی ازده دانش درحال توسعه ای است که دهه آینده راباانقلاب تکنولوژی مواجه می سازد.این تکنولوژی امروزه دارای کاربرد بسیاروسیعی درحوزه های مختلف است به گونه ای که امروزه حدومرزی برای کاربرد این دانش درنظرنگرفته وزمینه های کاری این دانش راازذرات کف اقیانوس ها تااعماق فضامی دانند.
امروزه بیشترین کاربرد داده کاوی دربانکها، مراکزصنعتی وکارخانجات بزرگ، مراکزدرمانی وبیمارستانها ،مراکز تحقیقاتی ،بازاریابی هوشمند وبسیاری ازموارددیگرمی باشد.
داده کاوی پل ارتباطی میان علم وآمار،علم کامپیوتر، هوش مصنوعی ،الگو شناسی،فراگیری ماشین وبازنمایی بصری داده می باشد.داده کاوی فرآیندی پیچیده جهت شناسایی الگوها ومدل های صحیح، جدید وبه صورت بالقوه مفید، درحجم وسیعی ازداده می باشد، به طریقی که این الگوها ومدلها برای انسانها قابل درک باشد.داده کاوی به صورت یک محصول قابل خریداری نمی باشد،بلکه یک رشته علمی وفرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داده ها به معنی کنکاش داده های موجود درپایگاه داده وانجام تحلیل های مختلف برروی آن به منظوراستخراج اطلاعات می باشد.
داده کاوی فرآیندی تحلیلی است که برای کاوش داده ها( معمولاً حجم عظیمی ازداده ها) صورت می گیرد ویافته هابا به کارگیری الگوهایی ،احرازاعتبارمی شوند.هدف اصلی داده کاوی پیش بینی است.وبه صورت دقیق ترمی توان گفت:
" کاوش داده ها شناسایی الگوهای صحیح ،بدیع، سودمند وقابل درک ازداده های موجود دریک پایگاه داده است که بااستفاده ازپردازش های معمول قابل دستیابی نیستند."

 

 

 

فصل دوم
مفاهیم داده کاوی

2.1 فرایند داده کاوی
فرآیند داده کاوی شامل سه مرحله می باشد:
1- کاوش اولیه
2- ساخت مدل یاشناسایی الگو باکمک احرازاعتبار/ تایید
3- بهره برداری
مرحله 1: کاوش
معمولاً این مرحله باآماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها، تبدیل داده ها وانتخاب زیرمجموعه هایی ازرکوردها با حجم عظیمی ازمتغییرها( فیلدها) باشد.
سپس باتوجه به ماهیت مساله تحلیلی، این مرحله به مدل های پیش بینی ساده یا مدل های آماری وگرافیکی برای شناسایی متغییرهای مورد نظروتعیین پیچیدگی مدل ها برای استفاده درمرحله بعدی نیازدارد.
مرحله 2: ساخت واحرازاعتبارمدل
این مرحله به بررسی مدل های مختلف وگزینش بهترین مدل باتوجه به کارایی پیش بینی آن می پردازد.شاید این مرحله ساده به نظربرسد.اما این طورنیست.تکنیک های متعددی برای رسیدن به این هدف توسعه یافتند.و" ارزیابی رقابتی مدل ها" نام گرفتند. بدین منظورمدل های مختلف برای مجموعه داده های یکسان به کارمی روند تاکارایی شان باهم مقاسیه شود. سپس مدلی که بهترین کارایی راداشته باشد انتخاب می شود. این تکنیک ها عبارتندازStacking، Boosting،Bagging و Meta- Learning
مرحله 3: بهره برداری
آخرین مرحله مدلی راکه درمرحله قبل انتخاب شده است، درداده های جدید به کارمی گیرد تا پیش بینی های خروجی های موردانتظار راتولیدنماید.داده کاوی به عنوان ابزارمدیریت اطلاعات برای تصمیم گیری، عمومیت یافته است. اخیراً توسعه تکنیک های تحلیلی جدید دراین زمینه مورد توجه قرارگرفته است.(مثلاً Classification Tree) اما هنوزداده کاوی مبتنی براصول آماری نظیر(EDA: Exploratory Data Analysis)می باشد.
بااین وجود تفاوت عمده ای بین داده کاوی وEDA وجود دارد. داده کاوی بیشتربه برنامه های کاربردی گرایش داردتا ماهیت اصلی پدیده، به عبارتی داده کاوی کمترباشناسایی روابط بین متغییرها سروکاردارد.
2.2 دو مفهوم اساسی در داده کاوی
Bagging:
این مفهوم برای ترکیب رده بندی های پیش بینی شده ازچند مدل به کارمی رود.فرض کنید که قصددارید مدلی برای رده بندی پیش بینی بسازید ومجموعه داده ها مورد نظرتان کوچک است.شمامی توانید نمونه هایی (باجایگزینی ) راازمجموعه داده ها انتخاب وبرای نمونه های اصلی ازدرخت رده بندی استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهیدرسید.سپس برای پیش بینی باکمک درخت های متفاوت به دست آمده ازنمونه ها یک رای گیری ساده انجام دهید.رده بندی نهایی رده بندی ای خواهدبود که درخت های مختلف آن راپیش بینی کرده اند.
Boosting:
این مفهوم برای تولید مدل های چند گانه (برای پیش بینی یارده بندی ) به کارمی رود.Boosting ترکیبی از classifierها راتولید خواهدکرد.
2.3 اساس داده کاوی
اساس داده کاوی برمبنای سه فعالیت اصلی ذیلاً به آنها اشاره می شود:
1- هدف داده کاوی: داده های بی ارزش وعوامل بیرونی حذف می شوند.
2- فشرده سازی دادها : این عمل به وسیله کد گذاری داده ها صورت می گیرد.
3- کشف الگوها: الگوهای موجود درپایگاه داده ها ازقبیل طبقه بندی ،الگوهای زنجیری و..... کشف می شوند.
انتخاب یک سیستم داده کاوی
سیستم های داده کاوی درروش وعملکرد متفاوتند وحتی ممکن است باانواع کاملا متفاوتی ازمجموعه داده ها مطابق باشند.برای انتخاب یک سیستم داده کاوی باید شرایط زیردرنظرگرفته شوند:
1- نوع داده ها: که می تواند متنی، رابطه ای، زنجیری، فضایی و....باشد.
2- ساختار وویژگی های سرور ومشتری
3- منبع داده ها
4- روش وعملکرد سیستم
5- قابلیت اندازه گیری
6- استفاده ازابزارهای دیداری
7- زبان سیستم
8- گرافیکی بودن محیط سیستم
2.4 عوامل ایجاد داده کاوی
1- سیل اطلاعات
2- معاملات کامپیوتری،اطلاعات علمی،اطلاعات پزشکی اشخاص، بازیها،شبکه جهانی وب
3- کاربرداطلاعات به عنوان کالا
4- رشدانبارهای داده ونیازبه استخراج اطلاعات مفید
5- راهکارهای فناوری جدید اطلاعات
6- تحقیقات وپیشرفت درعلوم ازجمله هوش مصنوعی
2.5 زیربنای داده کاوی
تکنیک های داده کاوی نتیجه ی تحقیقات گسترده وبلندمدتی است که درطول سالها برای افزایش بازدهی تجاری موسسات بکاربرده می شدند.تحقیقات دراین زمینه اززمانی آغازشدکه برای نخستین باراطلاعات تجاری هرسازمان،برروی سیستم های ذخیره سازی آن زمان که ازنوع مغناطیسی بودند،ذخیره شدند. این رشته تحقیقات باتوسعه وپیشرفت سیستم های اطلاعات که قابلیت ذخیره حجم بیشتری ازداده ها رافراهم می کردندوهمچنین ازسرعت بسیاربالاتری درذخیره سازی وبازیابی اطلاعات برخورداربودند، اهمیت بیشتری یافت. روش های دسترسی تصادفی یارندم به اطلاعات وپیدایش روشهای حرکت درمیان داده ها،خصوصاً به صورت بلادرنگ، فناوری داده کاوی رامتحول ساخت.
روش های داده کاوی برپایه های زیر استوار هستند:
1- گردآوری حجم عظیمی داده
2- کامپیوترهای چند پردازنده ی قدرتمند
3- الگوریتمهای داده کاوی
2.6 عناصرداده کاوی
توصیف وکمک به پیش بینی دوکارکرد اصلی داده کاوی هستند.تحلیل داده مربوط به مشخصه های انتخابی متغییرها؛ ازگذشته وحال،ودرک الگوهای مثالی ازتحلیل توصیفی است.برآورد ارزش آینده یک متغییر وطرح ریزی کردن روندمثالی پیشگویانه داده کاوی است.
برای عملی شدن هریک ازدوکارکرد فوق الذکرداده کاوی، چند گام ابتدایی اما مهم باید اجراشوند که ازاین قرارند:
1- انتخاب دادها
2- پاک سازی داده ها
3- غنی سازی داده ها
4- کدگذاری داده ها
بادارابودن هدف کلی درمطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است.رکوردهای لازم می تواند ازانبارداده ها ویابانک اطلاعاتی عملیاتی استخراج شود.این رکوردهای داده جمع آوری شده، اغلب ازآنچه آلودگی داده ها نامگذاری شده است رنج می برند وبنابراین لازم است پاکسازی شوند تاازیکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده وکنترل سازگاری دامنه به عمل آید ممکن است داده های گرد آوری شده ازجنبه های خاصی ناقص یاناکافی باشد.دراین صورت داده های مشخصی باید گردآوری شوند تابانک اطلاعاتی اصلی راتکمیل کنند منابع مناسب برای این منظورباید شناسایی شوند.
این فرآیند مرحله غنی سازی داده ها راتکمیل می کند .یک سیستم کدگذاری مناسب معمولاً جهت انتقال داده ها به فرم ساختاربندی شده جدید، متناسب برای عملیات داده کاوی تعبیه می شود.
2.7 مراحل داده کاوی
داده کاوی درطی 10 مرحله انجام می گیرد.این مراحل به ترتیب عبارتنداز:
1- شناسایی هدف: دراین مرحله مشخص می شود که کاربربه چه چیزی می خواهددست یابد وچه نوع وچه سطحی ازاطلاعات رامی خواهد ازپایگاه داده ها به دست آورد به طوری که دروقت اوصرفه جویی شود.
2- انتخاب داده: پس ازاین که هدف تعیین شد باید داده انتخاب شود.درانتخاب داده باید شرایطی درنظرگرفته شود ازقبیل این که: آیافیلد مشترکی دربین داده های انتخاب شده وجود دارد که بتواند برای لینک شدن به یک پایگاه داده ی دیگرمورد استفاده قرارگیرد؛ آیا داده ای که قراراست کاوش شود قابل دسترسی هست، آیاپس ازاین که مجموعه داده ها تهیه شد درآن انباشتگی وجود داردخیر؛ چقدرازاین داده ها به هدف مورد به هدف نظرماهستند؟
3- آماده سازی داده ها: پس ازسازماندهی وانتخاب داده ها باید فرمت قابل استفاده داده ها مشخص شود. هدف ازاین مرحله تولید یک مجموعه آماده ازداده های کاوش شده است. شناسایی متغییرهای زاید وپارازیت ها دریک مجموعه داده ها ورفع این متغییرها ازاهداف این مرحله است.
4- ارزیابی داده ها: دراین مرحله ساختار داده ها باتوجه به شرایطی ارزیابی می شوند که این شرایط
عبارتندازاین که: ویژگی وساختار پایگاه داده ها چیست؛ شرایط کلی مجموعه داده ها چیست؛ توزیع مجموعه
دادها به چه صورت است؛ آیا ساختار داده ها بانیازاستفاده کنندگان مطابقت دارد؟
5- قالب بندی پاسخ: منظوراین است که پاسخ به چه فرمتی ارائه شود. به شکل تصویر،گزارش، ساختار درختی، شبکه عصبی و....
6- انتخاب ابزار: دراین مرحله ابزار مناسب برای داده کاوی انتخاب می شود.درموقع انتخاب ابزار مناسب برای داده کاوی باید درنظربگیریم که آیا این ابزارباکامپیوترکاربرمطابقت دارد یاخیر؟ یک ابزار داده کاوی باید به گونه ای باشد که نتایج تجزیه وتحلیل آن برای کاربر قابل درک باشد.همچنین باید بدانیم که ابزاری که انتخاب می کنیم چه نوع پاسخهایی راتولید می کند. باید به این نکته توجه کنیم که هیچ ابزاری به تنهایی قادربه تهیه پاسخ نیست؛ بلکه مجموعه ای ازابزارها به همراه مجموعه ای ازبرنامه ها مورد نیازاست.
7- مدلسازی: دراین مرحله فرآیند داده کاوی شروع می شود. این مرحله شامل جستجوی الگوها دریک مجموعه داده ها وطبقه بندی ،تصمیم گیری ،جمع آوری وارزشیابی داده ها می باشد.
مواردی رابایددرنظرگرفت ازقبیل: میزان خطاهای مدل تا چه حداست؟ آیا این کدل ها قابل پذیرش هستند؟ آیا امکان پیشرفت آنها وجود دارد؟ آیا برای یک مدل به داده های بیشتروروش های مختلفی نیازاست؟ آیا نیازاست که مجموعه داده ها تست شوند.....
8- اعتبار سازی یافته ها: این مرحله شامل تست کردن الگوهاست. درتجزیه وتحلیل داده کاوی باید درمورد نتایج تجزیه وتحلیل بامدیر،طراح،مجری طرح، تحلیل گرومهندسان بحث شود. به این دلیل که مطمئن شویم که یافته هها صحیح ومطابق بااهداف ماهستند. همچنین بررسی کنیم که آیا نتایج قابل دسترسی هستند؟ آیا نیازاست که به مراحل قبلی بازگردیم تا نتایج بهتری کسب کنیم؟ آیا ابزارهای دیگرداده کاوی می توانند مورد استفاده قرارگیرند به طوری که همانند نتایج استخراج شوند و.....
9- ارائه نتایج: این مرحله گزارش نهایی رابرای کاربرتهیه می کند. این گزارش باید با استناد به کل فرآیند داده کاوی باشد.باارائه نتایج به کاربرمشخص می شود که آیا این یافته ها مطابق بااهداف اوهستند؟ وآیا داده های بیشتری می توانند باعث پیشرفت تجزیه وتحلیل شوند؟
10- استفاده ازنتایج: هدف نهایی داده کاوی استفاده ازنتایج کشف شده برای ایجاد یک موقعیت جدید وبهتراست.

2.8 وظایف داده کاوی
باتوجه به مباحث مطرح شده می توان وظایف داده کاوی رابه صورت زیرخلاصه کرد:
توصیف: یافتن الگوهایی که داده ها راتوصیف می کنند.
پیش بینی : استفاده ازمتغییرها برای پیش بینی ارزش های ناشناخته دیگرمتغیرها
توضیح: اگرکاربری دریک زمان واحد به دواثردسترسی داشته باشداین طور نتیجه گیری می شود که
ارتباطی بین دواثروجوددارد.بنابراین اگرکاربردیگری تنها به یکی ازاین دواثردسترسی داشته باشد ازطریق
داده کاوی پیش بینی می شود که این کاربراحتمالاً به اثراول نیزعلاقمنداست.

2.9 فنون داده کاوی
فنون داده کاوی یک گروه نا متجانس راشکل می دهند چراکه هرتکنیکی که بتواند بینش جدیدی ازداده ها رااستخراج کند می تواند داده کاوی به حساب آید. برخی از ابزارهای رایج به کارگرفته شده تحت عنوان داده کاوی عبارتنداز:
1- ابزارهای پرس وجو
2- فنون آماری
3- مصورسازی
4- پردازش تحلیلی پیوسته
5- یادگیری مبتنی برمورد
6- درختان تصمیم گیری
7- قوانین وابستگی
8- شبکه های عصبی
9- الگوریتم ژنتیکی
شکل2.1 فنون داده کاوی

ابزارهای پرس وجو: ابزارهای متداول زبان پرس وجوی ساختاربندی شده درابتدا برای انجام تحلیل های اوایه به کارگرفته شدند که می تواند مسیرهایی برای تفحص بیشترنشان دهد.
فنون آماری: مشخصات اصلی داده ها لازم است باکاربرد انواع مختلفی ازتحلیل های آماری شامل جدول بندی ساده ومتقاطع داده ها ومحاسبه پارامترهای آماری مهم به دست آید.
مصورسازی: با نمایش داده ها درقالب نمودارها وعکس ها مانند نمودار پراکندگی ،گروه بندی داده ها درخوشه های متناسب تسهیل می شود. استنباط عمیق ترممکن است با به کارگیری تکنیک های گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: ازآن جا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روش های متعددی برای ترکیب دادن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک می کند وابزارهای ابتدا، انتهای پیوسته برای انجام پرس وجو ایجاد می کند.اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
یادگیری مبتنی برمورد: این تکنیک مشخصات گروه های داده ها را تحلیل می کند وبه پیش بینی هرنهاد واقع شده درهمسایگی شان کمک می کند.الگوریتم هایی که استرتژی یادگیری تعاملی رابرای کاوش دریک فضای چندین بعدی به کارمی گیرند برای این منظور مفیداست.

درختان تصمیم گیری: این تکنیک بخش های مختلف فهرست پاسخ های موفق داده شده مربوط به یک پرس
وجو رابازیابی می کند وبه این ترتیب به ارزیابی صحیح گزینه های مختلف کمک می کند.

 

شکل 2.2 نمونه ای از یک درخت تصمیم

 

قوانین وابستگی:اغلب مشاهده می شود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای ازداده های معین وجوددارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته وبه کارگرفته می شود.
شبکه های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش رابراساس کاربرد وارزیابی نتایج بهبود می بخشد.
الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع می شود ورشدش درآینده راباحضور دربرخی مراحل فرآیند محاسبه احتمال جهش تصادفی،همان طور که درتکامل طبیعی فرض می شود طرح ریزی می نماید.این تکنیک به چند روش می تواند عملی شود.وترکیب غیرقابل انتظار یانادری راازعواملی که درحال وقوع بوده ومسیرمنحنی طراحی داده ها را تغییر می دهند ،منعکس می کند.
گام نهایی فرآیند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج وکاربردهای پروژه درصورت به کارگیری آنها است.ومتن مناسب جداول وگرافیک ها رادرخود جای می دهد.بیشتراوقات گزارش دهی یک فرآیند تعاملی است که تصمیم گیرنده با داده ها درپایانه کامپیوتری بازی می کند وفرم چاپی برخی نتایج واسطه محتمل رابرای عملیات فوری بدست می آورد.
داده کاوی درتولید چهارنوع دانش زیرمفیداست:
1- دانش سطحی (کاربرد های SQL )
2- دانش چند وجهی (کاربردهای OALP)
3- دانش نهان( تشخیص الگووکاربردهای الگوریتم یادگیری ماشینی)
4- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)
2.10 معماری داده کاوی

 

 

فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد

تعداد صفحات این مقاله   37 صفحه

پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید

 


دانلود با لینک مستقیم


دانلود مقاله داده کاوی