نتایج آزمایشات نشان داده است که ترکیب چندین دستهبند[1] می تواند کارایی الگوریتمهای متنوع را بالا ببرد. روشهای تصمیم گیری دستهجمعی[2] بسیاری ارائه شده اند که با بهره گرفتن از آنها، خطای روشهای مختلف دستهبندی[3] کاهش یافته است. با این حال، این گونه روشها نتوانسته اند کارایی الگوریتم نزدیکترین همسایه[4] را افزایش دهند. در این پایان نامه یک روش تصمیم گیری دستهجمعی ارائه شده است تا با بهره گرفتن از ترکیب وزندار چندین دستهبند، کارایی را بهبود بدهد. در این روش هر کدام از این دستهبندها یک دستهبند نزدیکترین همسایه است که تنها از زیر مجموعه ای از مجموعه ویژگیها[5] نمونهها استفاده می کند. در ادامه، الگوریتم به هر کدام از آنها یک وزن اختصاص میدهد و در نهایت از یک مکانیسم رایگیری وزنی[6] برای تعیین خروجی مدل دستهجمعی استفاده می کند.
فهرست مطالب
عنوان صفحه
فصل اول 1
مقدمه 1
1-1- مقدمه. 2
1-2- روشهای دستهبندی.. 3
1-3- ارزیابی دستهبند. 4
1-4- تصدیق متقابل.. 6
1-5- الگوریتم نزدیکترین همسایه. 7
1-7- سر فصلها 9
فصل دوم 10
الگوریتم نزدیکترن همسایه و روشهای موجود برای بهبود آن.. 10
2-1-الگوریتم نزدیکترین همسایه. 11
2-2- محدودیتهای روش نزدیکترین همسایه. 14
2-3- بر راهکارهای ارائه شده در گذشته برای بهبود الگوریتم نزدیکترین همسایه. 15
فصل سوم 18
روشهای تصمیم گیری دستهجمعی.. 18
3-1- مقدمه. 19
3-2- روشهای متفاوت برای ایجاد یک تصمیمگیر دستهجمعی.. 21
3-3- ساختارهای مختلف در روش تصمیم گیری دستهجمعی.. 22
3-4- رایگیری بین دستهبندها 23
3-5- معرفی چند روش تصمیم گیری دستهجمعی پرکاربرد. 24
فصل چهارم 28
روش پیشنهادی برای دستهجمعی کردن الگوریتم نزدیکترین همسایه. 28
4-1- مقدمه. 29
4-2- ایده اصلی.. 30
4-3- دستهجمعی کردن مجموعه دستهبندهای وزندار نزدیکترین همسایه. 31
فصل پنجم 39
نتایج آزمایشات پیاده سازی و نتیجه گیری.. 39
5-1- نتایج.. 40
فصل ششم 45
نتیجه گیری 45
فهرست منابع.. 48
- مقدمه
در دنیای امروزی حجم اطلاعات دیجیتالی به صورت روز افزونی در حال افزایش است. در همین راستا، به جهت مدیریت و بررسی علمی این اطلاعات، نیاز به پردازش هوشمندانه و خودکار این اطلاعات بیش از پیش احساس می شود.
یکی از مهم ترین این پردازش ها که در فناوری اطلاعات و ارتباطات مورد نیاز است، دستهبندی خودکار این اطلاعات می باشد. دسته بندی در مسائل متنوعی در فناوری اطلاعات به کار گرفته می شود، در مسائلی مانند امنیت اطلاعات، شناسایی نفوزگری در شبکه، دسته بندی کاربران بر اساس اطلاعات شخصی، پردازش تصویر و در واقع شناسایی هر گونه الگو بر اساس نمونهها و اطلاعات پیشین. این پردازش می تواند دسته[1]ی نمونههای جدید که به مجموعه اطلاعات اضافه می شود را پیش بینی نماید. از این رو در هوش مصنوعی توجه خاصی به توسعه انواع روشهای دستهبندی هوشمند و خودکار شده است.
روشهای دستهبندی
دستهبندی یکی از مهمترین شاخههای یادگیری ماشین[2] است. دستهبندی به پیش بینی برچسب دسته[3] نمونه[4] بدون برچسب، بر اساس مجموعه نمونههای آموزشی برچسبدار (که قبلا به با کمک یک کارشناس دستهبندی شده اند) گفته می شود. درواقع دستهبندی روشی است که هدف آن، گروهبندی اشیا به تعدادی دسته یا گروه میباشد. در روشهای دستهبندی، با بهره گرفتن از اطلاعات بدست آمده از مجموعه نمونههای آموزشی، از فضای ویژگیها[5] به مجموعه برچسب دستهها نگاشتی بدست می آید که بر اساس آن، نمونههای بدون برچسب به یکی از دستهها نسبت داده می شود.
در مسائل دستهبندی، هر نمونه توسط یک بردار ویژگی[6] به صورت X=<x1 , x2 , xm> معرفی می شود که نشان دهنده مجموعه مقادیر ویژگیهای نمونهی مربوطه است. بر اساس این بردار، نمونه X دارای m خصوصیت یا ویژگی است. این ویژگیها میتوانند مقادیر عدد صحیح، اعشاری ویا مقادیر نامی[7] به خود اختصاص بدهند. همچنین این نمونه دارای یک برچسب C است که معرف دستهای است که نمونهی X به آن تعلق دارد.
تفاوت روشها دستهبندی در چگونگی طراحی نگاشت است. در بعضی از آنها با بهره گرفتن از داده های آموزشی مدلی ایجاد می شود که بر اساس آن فضای ویژگیها به قسمت های مختلف تقسیم می شود که در آن، هر قسمت نشان دهنده یک دسته است. در این گونه روشهای دستهبندی از مدل برای پیش بینی دستهی نمونه بدون برچسب استفاده شده و از نمونههای آموزشی به طور مستقیم استفاده نمی شود. یک نمونه از این دستهبندها، دستهبندهای احتمالی[8] میباشد. این گونه الگوریتمها، از استنتاج آماری برای پیدا کردن بهترین دسته استفاده می کنند؛ برخلاف سایر دستهبندها که فقط بهترین کلاس را مشخص می کنند الگوریتمهای احتمالی به ازای هر دسته موجود یک احتمال را به عنوان تعلق نمونه به آن مشخص می کنند و کلاس برنده، بر اساس بیشترین احتمال انتخاب می شود. روشهای احتمالی در یادگیری ماشین معمولا با نام الگوریتمهای آماری نیز شناخته میشوند. در گروهی دیگر از روشهای دسته بندی، نمونه براساس خود مجموعه نمونهها و بدون ساختن مدل، به پیش بینی دستهی نمونه مورد نظر می پردازد. به این گونه الگوریتم های دستهبندی، نمونه- بنیاد[9] گفته می شود.
تاکنون الگوریتمهای متفاوتی به عنوان دستهبند ارائه شده اند. از جملهی آنها میتوان به الگوریتم نزدیک ترین همسایهها[10] [1] ، دستهبند بیز[11][2]، ماشین بردار پشتیبان[3] و شبکه عصبی[12][4] اشاره کرد.
- ارزیابی دستهبند
اولین موضوعی که در مورد هر الگوریتم مورد توجه قرار میگیرد، کارایی و دقت آن الگوریتم است. در هوش مصنوعی، معیارهای متفاوتی وجود دارند که در مسائل مختلف و زیر شاخههای این علم استفاده می شود. در مورد کارایی یک دستهبند، به عنوان یکی از مسائل اصلی هوش مصنوعی، روشهای متنوعی وجود دارد که در این قسمت بررسی شده اند.
معیار کارایی نظرگرفته شده برای یک دستهبند، ارتباط مستقیمی با کاربرد و ضمینه کار خاص آن دستهبند دارد. بنابراین در مسائل متفاوت، ممکن است معیارهای مختلفی برای اندازه گیری کارایی الگوریتم در نظرگرفته شود. همچنین همان طور که مشخص است، یک دستهبند که بتواند برای همه مسائل موجود بهترین جواب را ارائه دهد، وجود ندارد.
در بررسی آماری کارایی یک دستهبند، از یک مجموعه که شامل تعداد مشخصی نمونهی آموزشی دارای برچسب است استفاده می شود. برای این کار، قسمتی از این نمونهها و یا تمام مجموعه، به عنوان مجموعه آموزشی[13]، در اختیار دستهبند برای آموزش قرار میگیرد. پس از آموزش، دسته بند به وسیله زیرمجموعهای از نمونهها، به عنوان نمونههای آزمایشی، محک زده می شود. نمونههای موجود در مجموعهی آزمایشی، بسته به نوع آزمون کارایی، می تواند عضو مجموعه آموزشی بوده و یا متفاوت با آن باشند.
نرخ دستهبندی[14] یا صحت[15] پرکاربردترین و سادهترین معیار اندازه گیری کارایی هر دستهبند است. این معیار برابر است با نسبت تعداد نمونههای درست دستهبندی شده به تعداد کل نمونهها. براساس این تعریف، نرخ خطای دستهبندی از رابطه زیر بدست میآید:
مقادیر دقت[16] و بازخوانی[17] نیز معیارهای مناسبی برای ارزیابی دستهبندها میباشند. که اخیرا برای ارزیابی رقابت[18] بین اشتباه-مثبت[19] و درست-مثبت[20] استفاده می شود. در ادامه این معیارها معرفی می شود.
- معیاردقت : احتمال مثبت بودن نمونههایی که مثبت اعلام شده اند.
معیار بازخوانی : احتمال مثبت اعلام کردن نمونههای دسته مثبت.
معیار اختصاص[21]: احتمال منفی اعلام کردن نمونههای دسته منفی.
که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دستهها گفته می شود.
- تصدیق متقابل[22]
یک روش برای ارزیابی آماری دستهبند، تصدق متقابل[5] میباشد. در این تکنیک برای ارزیابی کارایی دستهبند، نمونهها را به صورت تصادفی به دو گروه که مکمل یکدیگر هستند، تقسیم می کنند. با یک گروه سیستم را آموزش داده و با گروه دیگر سیستم آموزش دیده را مورد آزمایش قرار میدهند. با این کار از تطبیق بیش از حد[23] مدل بر روی داده های آموزشی جلوگیری می شود و نتایج بدست آمده از ارزیابی، دارای درجه اطمینان بیشتر خواهد بود. برای اطمینان بیشتر از نتایج، تصدیق متقابل در چندین مرحله صورت تکرار شده و در هر مرحله، از تقسیم بندی متفاوتی برای نمونهها استفاده می شود. در پایان از نتایج تمامی تکرار آزمایشها میانگینگیری صورت میگیرد.
در ادامه روشهای مختلف تطبیق متقابل توضیح داده می شود.
- تصدیق زیر گروه تصادفی[24]: در این روش، نمونهها به صورت تصادفی به دو گروه آموزشی[25] و آزمایشی[26] تقسیم میشوند. سپس دستهبند به وسیله نمونههای آموزشی، آموزش داده می شود و با بهره گرفتن از مجموعه دیگر آزمایش شده و کارایی محاسبه می شود. این عملیات چندین بار انجام میگیرد و در نهایت میانگین آنها به عنوان کارایی دستهبند ارائه می شود. با توجه به تصادفی انتخاب شدن مجموعههای آموزشی و آزمایشی، مهمترین مشکل این روش امکان عدم انتخاب بعضی از نمونهها به عنوان عضو یکی از دو گروه و یا انتخاب بیش از یک بار بعضی از نمونهها میباشد.
- تصدیق متقابل k قسمت[27]: در روش ابتدا مجموعه نمونهها به K دسته تقسیم میشوند. در هر مرحله نمونههای k-1 دسته به عنوان مجموعه آموزشی در نظر گرفته می شود و با بهره گرفتن از یک دسته دیگر کارایی سیستم دستهبند ارزیابی می شود. در نهایت کارایی سیستم برابر با میانگین کارایی در همه مراحل می شود. در این روش از همه نمونهها برای آموزش و آزمایش استفاده می شود.
[دوشنبه 1399-10-01] [ 08:33:00 ب.ظ ]
|