امروزه با گسترش و رشد روز افزون اطلاعات در فضای مجازی و وجود انبوهی از کالا یا خدماتی که در وب سایتهای تجاری و خدماتی ارائه میگردند کاربران را با این مشکل مواجه نموده است که چگونه کالا یا خدمت مورد نظر خود را به راحتی و با صرف کمترین زمان ممکن بیابند. در این میان سیستمهای توصیهگر با هدف تسهیل و یاری رساندن به کاربران در زمینه انتخاب و یافتن کالای مورد نیاز ایشان با بهره گرفتن از علوم و روش های مبتنی بر داده کاوی اطلاعات، ایجاد و توسعه یافتهاند. همچنین در سالهای اخیر ظهور و گسترش شبکه های اجتماعی و شبکه های مبتنی بر رابطه اعتماد میان کاربران، باعث گشوده شدن افق جدیدی در ارائه سیستمهای توصیهگر و توسعه نسل جدیدی از اینگونه سیستمها گردیده است و آنرا به یکی از موضوعات جذاب و مورد توجه محققان تبدیل نموده است.
از میان روشها و مدلهای موجود در زمینه سیستمهای توصیهگر روش پالایش گروهی به لحاظ سادگی پیادهسازی از محبوبیت قابل ملاحظهای برخوردار است اما این روش در ارائه پیشنهادات مناسب و قابل قبول به کاربران تازه وارد دارای ضعفهای جدی میباشد. سیستمهای توصیهگر مبتنی بر اعتماد، با بهره گیری از رابطه اعتماد میان کاربران، در جهت رفع نقاط ضعف بیان شده و خصوصا ارائه پیشنهادات مناسب به کاربران تازه وارد گامهای موثری برداشته اند. در این تحقیق سعی شده است تا از تلفیق و ترکیب روشهای موجود در زمینه پالایش گروهی و همچنین مدلهای مبتنی بر اعتماد و بررسی نقاط ضعف و قوت آنها مدلی نوین و توسعه یافته ارائه گردد که در آن نتایج از خطای کمتر و دقت بالاتری برخوردار بوده و با افزایش معیار پوشش بتوان به درصد بیشتری از کاربران پاسخ مناسب ارائه نمود. برای این منظور در میان انواع روش های پالایش گروهی، روش مبتنی بر آیتم و برای پیمایش شبکه اعتماد میان کاربران نیز از روش پیمایش تصادفی بهره گرفته شده است، همچنین با تفسیر و تعدیل نظرات کاربران و اتخاذ شیوهای مناسب جهت محاسبه مقدار دقیق اعتماد میان کاربران و تغییر در نحوه پیمایش شبکه اعتماد میان ایشان سعی در بهبود و کاهش خطاهای نتایج گردیده است. در نهایت، جهت ارزیابی و برآورد مدل ترکیبی ارائه شده، نتایج و آمارهای حاصل از اجرای مدل پیشنهادی بر روی مجموعه داده های Epinions و Movielens و مقایسه آنها با نتایج مدل پایه TrustWalkerبه عنوان یکی از بهترین مدلهای ترکیبی ارائه شده در زمینه سیستمهای توصیه گر مبتنی بر اعتماد، ارائه میگردد.
واژههای کلیدی: داده کاوی[1]، شبکه های اجتماعی[2]، شبکه های مبتنی بر اعتماد[3]، سیستمهای توصیهگر[4]، پالایش گروهی[5]، اعتماد[6]، پیمایش تصادفی[7]، ترکیب سازی[8]
فهرست مطالب
عنوان…………………………………………………………………………………………………………….صفحه
فصل اول : مقدمهای بر انواع سیستم توصیهگر…………………………………………………1
1-1- مقدمه…………………………………………………………………………………………………………………..2
1-2- سیستمهای توصیهگر…………………………………………………………………………………………..3
1-3- انواع سیستمهای توصیهگر از لحاظ عملکردی……………………………………………………4
1-4- مزایا و اهمیت یک سیستم توصیهگر کارآمد………………………………………………………5
1-5- معایب و مشکلات کلی سیستمهای توصیهگر……………………………………………………..6
1-6- انواع رویکردها و مدلهای موجود در زمینه پیادهسازی سیستمهای توصیهگر…….7
1-7- تشریح و بیان مسئله………………………………………………………………………………………….11
1-8- اهداف تحقیق…………………………………………………………………………………………………….12
1-9- سوالات و فرضیه های تحقیق…………………………………………………………………………….13
1-10- مراحل تحقیق…………………………………………………………………………………………………14
1-11- فصول پایان نامه……………………………………………………………………………………………..15
فصل دوم : بر ادبیات تحقیق و مبانی نظری تحقیق………………………………17
2-1- مقدمه ……………………………………………………………………………………………………………….18
2-2- پالایش گروهی (Collaborative Filtering)…………………………………………….19
2-2-1- پالایش گروهی مبتنی بر حافظه(Memory Based)……………………………..20
2-2-1-1- روش پالایش گروهی مبتنی بر آیتم ………………………………………………………22
2-2-1-2- امتیازدهی به صورت پیش فرض……………………………………………………………..24
2-2-1-3- تشدید حالت(Case Amplification)……………………………………………….24
2-2-2- پالایش گروهی مبتنی بر مدل(Model Based)……………………………………..25
2-3- پالایش محتوایی (Content Based Filtering) ………………………………………26
2-4- تکنیکهای ترکیبی……………………………………………………………………………………………..27
2-5- سیستمهای توصیهگر مبتنی بر رابطه اعتماد میان کاربران……………………………..28
2-5-1- چگونگی کارکرد سیستم توصیهگر مبتنی بر اعتماد……………………………………30
2-5-2- مزایا و معایب………………………………………………………………………………………………..31
2-5-3- انتشار اعتماد و تجمیع اعتماد………………………………………………………………………33
2-6- چالش ها و محدودیتهای موجود………………………………………………………………………33
2-6-1- نقصان و کاستی اطلاعات……………………………………………………………………………..34
2-6-2- مشکل کاربران تازه وارد………………………………………………………………………………..34
2-6-3- کلاهبرداری و تقلب………………………………………………………………………………………35
2-6-4- پیچیدگیهای محاسباتی و زمانی…………………………………………………………………..36
2-7- معیارهای ارزیابی سیستمهای توصیهگر……………………………………………………………37
2-7-1- خطای جذر میانگین مربعات (RMSE)…………………………………………………….37
2-7-2- معیار درصد پوشش………………………………………………………………………………………38
2-7-3- معیار دقت…………………………………………………………………………………………………….39
2-7-4- معیار F-Measure…………………………………………………………………………………….39
فصل سوم : بر مطالعات و تحقیقات پیشین…………………………………………..41
3-1- مقدمه………………………………………………………………………………………………………………..42
3-2- مرور کارهای گذشته………………………………………………………………………………………….42
3-2-1- مدل MoleTrust………………………………………………………………………………………45
3-2-2- مدل TidalTrust………………………………………………………………………………………47
3-2-3- مدل دانه سیب……………………………………………………………………………………………..48
3-2-4- مدل ارائه شده توسط Anderson……………………………………………………………48
3-2-5- مدل ارائه شده توسط O’Donovan………………………………………………………..49
3-2-6- مدل TrustWalker………………………………………………………………………………….50
3-2-6-1- ساختار مدل TrustWalker…………………………………………………………………51
3-2-6-2- تشابه آیتم ها……………………………………………………………………………………………51
3-2-6-3- خصوصیات ویژه مدل TrustWalker…………………………………………………..52
3-2-6-3-1- فراگیری و عمومیت مدل…………………………………………………………………….52
3-2-6-3-2- اطمینان به نتایج حاصل………………………………………………………………………53
3-2-6-3-3- تفسیرپذیری و قابل توضیح بودن نتایج………………………………………………54
3-2-6-4- نمایش ماتریسی مدل TrustWalker………………………………………………….54
3-2-6-5- نتیجه گیری در خصوص مدل TrustWalker…………………………………….55
فصل چهارم : تشریح مدل ترکیبی پیشنهادی و چگونگی توسعه و بهبود مدل پایه.56
4-1- مقدمه………………………………………………………………………………………………………………..57
4-2- تشریح مدل کلی TrustWalker…………………………………………………………………..57
4-2-1- علائم نشانه گذاری و متغیرهای مدل…………………………………………………………..57
4-2-2- روند یک پیمایش تصادفی در شبکه…………………………………………………………….58
4-2-3- انتخاب تصادفی یک کاربر …………………………………………………………………………..59
4-2-4- انتخاب یک آیتم مشابه…………………………………………………………………………………59
4-2-5- تشابه آیتم ها…………………………………………………………………………………………………60
4-2-6- محاسبه احتمال ماندن در یک گره شبکه اعتماد ( )………………………..61
4-2-7- چگونگی انجام پیش بینی امتیاز……………………………………………………………………62
4-2-8- چگونگی محاسبه احتمال ………………………………………….63
4-2-9- چگونگی محاسبه عملی ……………………………………………………………………….64
4-2-10- شرط اتمام کلی مدل………………………………………………………………………………….64
4-3- بهبود و توسعه مدل TrustWalker………………………………………………………………65
4-3-1- استفاده از فرمول jaccard جهت محاسبه تشابه آیتمها…………………………….66
4-3-2- حذف میانگین از فرمول پیرسون………………………………………………………………….67
4-3-3- استفاده از تکنیک مبتنی بر آیتم خالص………………………………………………………67
4-3-4- تعدیل و تفسیر نظرات کاربران……………………………………………………………………..68
4-3-5- محاسبه دقیق مقدار اعتماد یا امتیاز رابطه میان دو کاربر…………………………..71
4-3-6- محاسبه ترکیبی امتیاز رابطه میان کاربران………………………………………………….73
فصل پنجم : تشریح روند انجام آزمایشات و نتایج حاصل………………………………76
5-1- مقدمه………………………………………………………………………………………………………………..77
5-2- معرفی مجموعه داده epinions……………………………………………………………………..77
5-2-1- ویژگیهای مجموعه داده epinions……………………………………………………………79
5-2-2- آماده سازی و نحوه پالایش داده ها……………………………………………………………….81
5-2-3- ایجاد مجموعه داده نمونه……………………………………………………………………………..83
5-3- مجموعه داده movielens……………………………………………………………………………..84
5-3-1- ویژگیهای مجموعه داده movielens………………………………………………………..84
5-4- نیازمندیهای نرم افزاری…………………………………………………………………………………….85
5-5- نیازمندیهای سخت افزاری………………………………………………………………………………..85
5-6- متدولوژی نرم افزاری…………………………………………………………………………………………86
5-7- پارامترهای پیش فرض انجام آزمایشات…………………………………………………………….86
5-8- نتایج اجرای آزمایشات با مجموعه داده epinions و movielens……………..87
5-8-1- بررسی تاثیر عمق پیمایش بر روی نتایج حاصل در خصوص کاربران تازه وارد……………………………………………………………………………………………………………………………….87
5-8-2- بررسی تاثیر تاریخ اعلام نظرات توسط کاربران……………………………………………88
5-8-3- بررسی تاثیر تغییر فرمول محاسبه تشابه آیتمها………………………………………….89
5-8-4- بررسی تاثیر بکارگیری مکانیزم تفسیر و تعدیل نظرات کاربران………………….90
5-8-5- بررسی تاثیر بکارگیری انواع روش های ترکیبی برای انتخاب کاربران و پیمایش شبکه…………………………………………………………………………………………………………………………….93
5-8-5-1- نحوه محاسبه امتیاز رابطه موجود میان کاربران……………………………………..93
5-8-5-2- بررسی تاثیر بکارگیری روش های ترکیبی در عملکرد سیستم برای تمامی کاربران………………………………………………………………………………………………………………………….94
5-8-5-3- بررسی تاثیر بکارگیری روش های ترکیبی در عملکرد سیستم برای کاربران تازه وارد ………………………………………………………………………………………………………………………99
5-8-6- بررسی تاثیر بکارگیری توام مکانیزم تفسیر امتیازات کاربران به همراه استفاده از روش های ترکیبی انتخاب کاربران و پیمایش شبکه اعتماد……………………………………101
5-9- انجام آزمایشات با مجموعه داده movielens……………………………………………..107
5-9-1- نتایج حاصل از اجرای روش های ترکیبی مورد استفاده در مدل توسعه یافته…………………………………………………………………………………………………………………………..107
فصل ششم : نتیجه گیری نهایی و کارهای آینده…………………………………………….110
6-1- مقدمه………………………………………………………………………………………………………………111
6-2- عملکرد مدل توسعه یافته……………………………………………………………………………….112
6-2-1- عملکرد مدل توسعه یافته در خصوص تمامی کاربران………………………………112
6-2-2- عملکرد مدل توسعه یافته در خصوص کاربران تازه وارد…………………………..114
6-3- نتیجه گیری نهایی …………………………………………………………………………………………115
6-3-1- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده epinions………………………………………………………………………………………………………………..116
6-3-2- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده movielens…………………………………………………………………………………………………………….118
6-4- پیشنهادات کارهای آینده……………………………………………………………………………….118
اختصارات…………………………………………………………………………………………………..120
فهرست منابع……………………………………………………………………………………………..121
فهرست جداول
عنوان………………………………………………………………………………………………………………….صفحه
جدول 3-1 : دستهبندی مدلهای اعتماد…………………………………………………………………………………..44
جدول 4-1 : ماتریس پراکندگی نحوه امتیازدهی دو کاربر و ……………………………………70
جدول 4-2 : تفسیر نظرات کاربر ……………………………………………………………………………………..70
جدول 5-1 : ساختار جدول reviews……………………………………………………………………………………81
جدول 5-2 : ساختار جدول WOT…………………………………………………………………………………………82
جدول 5-3 : ساختار جدول cold_start_users…………………..……………………………………………82
جدول 5-4 : ساختار جدول ratings………………………………………………………………………………………83
جدول 5-5 : مقادیر پیش فرض پارامترها و متغیرهای مورد استفاده در مدل پیشنهادی………86
جدول 5-6 : نتایج بررسی تاثیر عمق پیمایش در خصوص کاربران تازه وارد………………………….88
جدول 5-7 : نتایج حاصل از بررسی تاثیر تاریخ اعلام نظرات کاربران……………………………………..89
جدول 5-8 : نتایج حاصل از تغییر فرمول محاسبه تشابه آیتمها…………………………………………….90
جدول 5-9 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران…………………….91
جدول 5-10 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران در خصوص کاربران تازه وارد…………………………………………………………………………………………………………………………91
جدول 5-11 : نتایج حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه……………………………………………………………………………………………………………………………………………..96
جدول 5-12 : نتایج حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد…………………………………………………………………………………………………………99
جدول 5-13 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………102
جدول 5-14 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد…………………………………………………………………………………………………………………………………………..104
جدول 5-15 : نتایج حاصل از اجرای روش های ترکیبی انتخاب کاربران و پیمایش شبکه……107
جدول 5-16 : نتایج حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روش های ترکیبی انتخاب کاربران و پیمایش شبکه…………………………………………………………………108
جدول 6-1 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه …………………………………………………………………………………………………………………………………………………113
جدول 6-2 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه در خصوص کاربران تازه وارد………………………………………………………………………………………………………..114
فهرست اشکال و نمودارها
عنوان………………………………………………………………………………………………………………….صفحه
شکل 2-1 : چگونگی کارکرد روش پالایش گروهی (Collaborative Filtering)……………20
شکل 2-2 : نمایش یک شبکه اعتماد به همراه امتیازات بیان شده توسط کاربران در خصوص آیتمهای مختلف…………………………………………………………………………………………………………………………31
شکل 3-1 : معماری مدل MoleTrust ارائه شده توسط Massa……………………………………….46
شکل 5-1 : بنر صفحه اصلی سایت epinions………………………………………………………………………78
نمودار 5-1 : مقایسه نتایج خطای RMSE و درصد پوشش مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران ……………………………………………………………………………………………………………………………………………………92
نمودار 5-2 : مقایسه نتایج معیارF-measure مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران…………93
نمودار 5-3 : مقایسه نتایج معیاردرصد پوششحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………97
نمودار 5-4 : مقایسه نتایج خطای RMSEحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………98
نمودار 5-5 : مقایسه نتایج معیار F-measureحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه……………………………………………………………………………………………….98
نمودار 5-6 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..100
نمودار 5-7 : مقایسه نتایج خطای RMSE حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………….100
نمودار 5-8 : مقایسه نتایج معیار F-measureحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..101
نمودار 5-9 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..103
نمودار 5-10 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه …………………………………………………………………………………………………………………………………………………103
نمودار 5-11 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..104
نمودار 5-12 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………105
نمودار 5-13 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد……………………………………………………………………………………………………………..106
نمودار 5-14 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………106
نمودار 5-15 : مقایسه نتایج خطای RMSE حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روش های ترکیبی انتخاب کاربران و پیمایش شبکه………………..109
نمودار 6-1 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه از نظر تمام معیارهای ارزیابی……………………………………………………………………………………………………………………………………..113
نمودار 6-2 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه برای کاربران تازه وارد از نظر تمام معیارهای ارزیابی………………………………………………………………………………………………….115
[1] Data Mining
[2] Social Networks
[3] Trust Networks
[4] Recommender Systems
[5] Collaborative Filtering(CF)
[6] Trust
[7] Random Walk
[8] Hybridization
مقدمه
گسترش سریع و روز افزون اطلاعات ارائه شده بر روی شبکه جهانی اینترنت، کاربران را با مشکلات عدیده و قابل تاملی در خصوص انتخاب منابع و اطلاعات مورد نیاز ایشان مواجه نموده است و چه بسا که بدون راهنمایی و هدایت صحیح، کاربران در اخذ تصمیمات صحیح یا انتخاب کالا و خدمات مورد نیازشان دچار اشتباه شده که این امر تبعات عدیدهای از جمله نارضایتی، سلب اطمینان کاربران و مشتریان سایتهای موجود بر روی اینترنت را به همراه خواهد داشت. از اینرو وجود ابزار و سیستمهایی برای کمک به کاربران در انتخاب اطلاعات مناسب و مورد نیاز ایشان کاملا ضروری به نظر میرسد. در سالهای اخیر برای برآورده سازی این نیازها سیستمهای توصیهگرمطرح و توسعه یافتهاند و الگوریتمها ، مقالات و متون علمی بسیار متنوع و مختلفی در این زمینه مطرح گردیده است .
در این میان، ایجاد و گسترش شبکه های اجتماعی، شبکه های اعتماد و وجود انواع روابط میان کاربران این شبکه ها افق جدیدی را برروی محققان و توسعه دهندگان سیستمهای توصیهگر گشوده است تا با بهره گیری از علوم اجتماعی و علوم روان شناختی حاکم در این شبکه ها و خصوصا وجود رابطه اعتماد میان کاربران بتوانند نسل جدیدی از سیستمهای توصیهگر را تحت عنوان “سیستمهای توصیهگر مبتنی بر اعتماد[1]”معرفی و عرضه نمایند. این سیستمها قادر هستند تا به درصد بیشتری از کاربران پاسخ مناسب را ارائه دهند و همچنین نتایج آنها از دقت بالاتری برخوردار میباشد.
با توجه به کثرت کاربران و افراد عضو شبکه های مبتنی بر اعتماد و شبکه های اجتماعی، همچنین تنوع رفتار و ویژگیهای ایشان، تنها یک شیوه یا یک مدل قادر به پاسخگویی و ارائه پیشنهادات دقیق و قابل قبول نمی باشد که این امر باعث ظهور سیستمهای توصیهگر ترکیبی[2]گردیده است. در این سیستمها سعی شده است تا با ترکیب انواع مختلفی از سیستمهای توصیهگر بتوان سیستمی تولید نمود که دارای مزایای حداکثری و معایب حداقلی باشد.