دانلود با لینک مستقیم و پر سرعت .
نوع فایل: word
قابل ویرایش 162 صفحه
مقدمه:
داده کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می باشد . داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح ، جدید و به صورت بالقوه مفید ودر حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند . داده کاوی به صورت یک محصول ، قابل خریداری نمی باشد ، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود .
داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد . بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات ، روز به روز ضروری تر می شود .
یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد . فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند .
برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند . همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند . نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند .
به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند .
نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک ، رمانتیک ، حادثه ای و ...) مشخص گردید .
بنابراین آن شرکت به صورت کاملاً هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند .
از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد .
ستفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد .
در دو دهه قبل توانایی های فنی بشر برای تولید و جمع آوری دادهها به سرعت افزایش یافته است . عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای در این تغییرات نقش مهمی دارند .
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند . این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند : داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد . در یک تعریف غیر رسمی داده کاوی فرآیندی است خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است . داده کاوی بطور همزمان از چندین رشته علمی بهره می برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش، حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده . داده کاوی در اواخر دهه 1980 پدیدار گشته است . در دهه 1990 گامهای بلندی در این شاخه از علم برداشته شده و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد [1]. واژه های «داده کاوی» و «کشف دانش در پایگاه داده» اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند . کشف دانش به عنوان یک فرآیند در شکل زیر نشان داده شده است . کشف دانش در پایگاه داده فرایند شناسایی درست، ساد ه، مفید و نهایتا الگوها و مدلهای قابل فهم در داده ها می باشد . داده کاوی ، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی است، بطوریکه تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند . به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست و بالقوه مفید از داده اطلاق می شود . تعریف دیگر اینست که داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می باشد به نحوی که با استخراج آنها در حوزه های تصمیم گیری، پیش بینی، پیشگویی و تخمین، مورد استفاده قرار گیرند . داده ها اغلب حجیم اما بدون ارزش می باشند، داده به تنهایی قابل استفاده نیست بلکه دانش نهفته در داده ها قابل استفاده می باشد . به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه گفته می شود .
فهرست مطالب:
فصل اول : داده کاوی Data Mining
1-1 مقدمه
1-2 تعاریف داده کاوی
1-3 تفاوت داده کاوی و آنالیز آماری
1-4 روش آنالیز آماری
1-5 روش داده کاوی
1-6 فواید و نقش داده کاوی در فعالیت شرکتها
1-7 مراحل اصلی داده کاوی
1-8 چه چیزی سبب پیدایش داده کاوی شده است ؟
1-9 مراحل کشف دانش
1-10 جایگاه داده کاوی در میان علوم مختلف
1-11 داده کاوی چه کارهایی نمی تواند انجام دهد ؟
1-12 داده کاوی و انبار داده ها
1-13 داده کاوی و OLAP
1-14 دلایل استفاده از DW ها
1-15 روش کار
1-16 آشنایی با مفاهیم انباره های داده
1-17 OLAP چیست ؟
1-18 چه کسانی از داده ها استفاده می کنند ؟
1-19 سیستم پشتیبانی تصمیم گیری چیست ؟
1-20 سیستم اطلاعات مدیران اجرایی
1-21 مقایسه سیستم هایOLTP و DSS
1-22 انبار داده ها
1-23 عناصر انبار داده
1-24 غرفه های داده ( سلسله مراتب انباره ها )
1-25 ابزار های گزارش گیری
1-25-1OLAP و اطلاعات چند بعدی
1-25-2OLAP رومیزی
1-25-3MOLAP چند بعدی
1-25-4 OLAP رابطه ای
1-25-5 HOLAP)hybrid OLAP )
1-25-6 استاندارد های OLAP
1-27 کاربرد یادگیری ماشین و آمار در داده کاوی
1-28 توصیف داده ها در داده کاوی
1-29 خوشه بندی
1-30 تحلیل لینک
1-31 مدل پیشبینی داده ها
1-31-1Classification
1-31-2Regression
1-31-3Time series
1-32 مدل ها و الگوریتم های داده کاوی
1-33 شبکه های عصبی
1-34 Decision trees
1-35Multivariate Adaptive Regression Splines (MARS)
1-36Rule induction
1-37K-nearest neibour and memory-based neighbor (K-NN)
1-38 رگرسیون منطقی
1-39 تحلیل تفکیکی
1-40 مدل افزودنی کلی (GAM)
1-41Boosting
1-42 سلسله مراتب انتخابها
1-43 نتیجه گیری
فصل دوم : وب کاوی Web Mining
2-1مقدمه
2-2 Web Mining
2-3رده بندی web mining
2-4Web Usage Mining
2-5Web Structure Mining
2-6 انجام عمل پیش پردازش روی فایلهای log
2-7 انجام عمل پیش پردازش preprocessing
2-8 پاکسازی داده ها data cleaning))
2-9 تشخیص کاربران user identification) )
2-10Session identification
2-11 تشخیص الگوها
2-12 تکنیکهای آماری
2-13 قوانین ارتباطی
2-14 الگوهای ترتیبی
2-15 خوشه بندی
2-16 نتیجه گیری
فصل سوم : الگوریتم های ژنتیک
3-1 مقدمه
3-2 زمینه های بیولوژیکی
3-3 فضای جستجو
3-4 مسائل NP
3-5 مفاهیم اولیه در الگوریتم ژنتیک
3-5-1 اصول پایه
3-5-2 شمای کلی الگوریتم ژنتیک
3-5-3 ساختار متداول الگوریتم ژنتیک
3-6 کد کردن
3-6-1 انواع کدینگ
3-6-2 روشهای کدینگ
3-6-3 مسائل مربوط به کدینگ
3-7 مرحله ارزیابی (evaluation)
3-8 عملگر تقاطع و جهش
3-9 رمز گشایی
3-10 کروموزوم
3-11 جمعیت
3-12 مقدار برازندگی
3-13 تعریف دیگر عملگر تقاطعی
3-14 تعریف دیگر عملگر جهش
3-15 مراحل اجرای الگوریتم ژنتیک
3-16 حل یک مسئله نمونه توسط الگوریتم ژنتیک
3-17 همگرایی الگوریتم ژنتیک
3-18 نتیجه گیری
فصل چهارم : کاربرد الگوریتم ژنتیک در Web Mining
4-1 مقدمه
4-2 یک الگوریتم ژنتیک برای جستجوی وب
4-3 دورنما
4-4 جستجو ی وب به عنوان یک مساله بهینه سازی
4-5 الگوریتم ژنتیکی بر پایه ماشین جستجو
4-6 درخواست کاربر و ارزیابی تابع
4-7 عملگر های ژنتیک و مکانیزم های جستجو
4-8 مطالعه پارامترها
4-9 الگوهای کشف شده
4-10 قوانین نتیجه گیری
4-11 رده بندی نمونه های ناشناخته
4-12 ابعاد
4-13 چرا از الگوریتم ژنتیک استفاده می کنیم ؟
4-14 یک رهیافت پیوندی -GA ها و دسته بندی کننده نزدیکترین K – همسایه
4-15 جنبه های بهبود یافته الگوریتم ها
4-16 کاوش برای قارچ خوراکی
4-17 نتیجه الگوریتم
4-18 جستجوی وب به عنوان یک مساله بهینه سازی
4-19 GA پیشنهاد شده
4-20تابع ارزیابی مطابق با درخواست استفاده کننده
4-21 عملگرهای تقاطع و دیگر ماشین های جستجو
4-22 تنظیمات آزمایش
4-23 نتیجه گیری
مراجع
فهرست اشکال:
فصل اول : داده کاویData Mining
شکل 1-1 : داده کاوی به عنوان یک مرحله از فرآیند کشف دانش9
شکل 1-2 : سیر تکاملی صنعت پایگاه داده
شکل 1-3 : معماری یک نمونه سیستم داده کاوی
شکل 1-4 : داده ها از انباره داده استخراج می گردند .
شکل 1-5 : داده ها از چند پایگاه داده استخراج شده اند .
شکل 1-6 : انبار داده
شکل 1-7 : شبکه عصبی با یک لایه نهان
شکل 1-8 : Wx,y
شکل 1-9 : درخت تصمیم گیری
شکل 1-10 : محدود همسایگی
فصل دوم : وب کاوی Web Mining
شکل 2-1 : نمونه ای از فرمت log file که از فرمت عمومی پیروی می کند
فصل سوم : الگوریتم های ژنتیک
شکل 3-1 : نمونه ای از فضای جواب
شکل 3-2 : کدینگ باینری
شکل 3-3 : کدینگ جهشی
شکل 3-4 : کدینگ ارزشی
شکل 3-5 : کدینگ درختی
شکل 3-6 :فضای کدینگ و فضای جواب
شکل 3-7: رابطه بین کروموزوم ها و جوابها
شکل 3-8 : انواع روابط بین فضای جواب و فضای کدینگ
شکل3-9 :مثال رمز گشایی
شکل 3-10 : مثال جهش
شکل 3-11 : نمایش یک کروموزوم n بیتی در پایه عددی m
شکل 3-12 : مثالی از عمل جابجایی تک نقطه ای
شکل 3-13 : تقاطع در کروموزوم های کد شده چهاربیتی
شکل 3-14 : تقاطعی دو نقطه ای
شکل 3-15 : عمل تقاطعی یکنواخت
شکل 3-16 : نمونه ای از عمل جهش
شکل 3-17 : مراحل اجرای الگوریتم ژنتیک
شکل 3-18 : چرخ رولت
شکل 3-19 : نمایش کروموزوم معادل زوج (X,Y)
فصل چهارم : کاربرد الگوریتم ژنتیک در Web Mining
شکل 4-1 : ارزیابی جمعیت به معنی کیفیت برای مقادیر مختلف Pmut
شکل 4-2 : تاثیر انتقال KNN
شکل 4-3 : جمعیت متوسط به معنی کیفیتی برای مقادیر مختلف 3000 مقدار اولیه
شکل 4-4 : جمعیت متوسط به معنی کیفیتی برای مقادیر مختلف 20 صفحه ابتدایی
شکل 4-5 : جمعیت متوسط به معنی کیفیتی برای مقادیر مختلف 120 صفحه ابتدایی
شکل 4-6 : جمعیت متوسط به معنی کیفیتی برای مقادیر مختلف 250 صفحه ابتدایی
شکل 4-7 : اختلاف زمانی با 250 صفحه استفاده شده اولیه
فهرست جداول:
فصل سوم : الگوریتم های ژنتیک
جدول 3-1 : مثالهای تقاطع تک نقطه ای
جدول 3-2 : مثالهای تقاطع دو نقطه ای
جدول 3-3 : نمونه ای از عمل جهش
جدول 3-4 :انتخاب کروموزوم ها با استفاده از مدل چرخ رولت
جدول 3-5 : نمایش جمعت اولیه
جدول 3-6 : نتایج عمل تقاطع
جدول 3-7 : نتایج عمل جهش با Pm=0.2
جدول 3-8 : کروموزوم با بیشترین مقدار برازندگی
فصل چهارم : کاربرد الگوریتم ژنتیک در Web Mining
جدول 4-1 : سوالات مورد استفاده در آزمونها
جدول 4-2 : نتایج مقایسه برای تابع f1
جدول 4-3 : نتایج مقایسه برای تابع f2
جدول 4-4 : مدلسازی مساله جستجوی اطلاعات به عنوان یک مساله بهینه سازی
جدول 4-5 : آخرین جمعیت به معنی کیفیت برا مقادیر مختلف Popmax
جدول 4-6 :پارامتر های GA برای مجموعه داده ای قارچ
جدول 4-7 : نتایج مجموعه داده ، قارچ برای دسته بندی KNN
جدول 4-8 :مقیاسی برای دیگر دسته بندی ها
جدول 4-9 :نتایج مقایسه برای Mq
منابع و مأخذ:
1- احسان زنجانی / مقدمه ای بر داده کاوی
2- کامیار کیمیا بیگی / مقدمه ای بر انبار داده ها (Data Warehouse). 1386
3- مستوره حسن نژاد- سیما سلطانی / متدی برای بهبود بخشیدن ساختار وب . (web usage mining)
4- یوحنا قدیمی – علی عباسی – کاوه پاشایی / کنکاو وب .(web mining)
5- رضا قنبری / آشنایی با الگوریتم ژنتیک / دانشگاه صنعتی شریف ( دانشکده ریاضی ) / 1381
6- پیام خان تیموری / الگوریتم ژنتیک و حل مساله TSP
7- F.Picarougne , N.Monmarche , A.Oliver , G.Venturini \ Web Mining With a Genetic Algorithm \ Laboratory Of Information , University Of Tours , 64.
8- F.Picarougne , N.Monmarche , A.Oliver , G.Venturini / GENIMINER Web Mining With a Genetic-Based Algorithm .
9- Robert E.Marmelstein \ Application Of Genetic Algorithm To Data Mining \ Department Of Electrical And Computer Engineering Air Force Institue Of Technology Wright-Patterson AFB .
10- M.H.Marghny And A.F.Ali \ Web Mining Based On Genetic Algorithm \ Dept. Of Computer Science , Faculty Of Computers And Information , Assuit University , Egypt , ( WWW. Icgst . com )