امروزه با گسترش و رشد روز افزون اطلاعات در فضای مجازی و وجود انبوهی از کالا یا خدماتی که در وب سایتهای تجاری و خدماتی ارائه می­گردند کاربران را با این مشکل مواجه نموده است که چگونه کالا یا خدمت مورد  نظر خود را به راحتی و با صرف کمترین زمان ممکن بیابند. در این میان سیستمهای توصیه­گر با هدف تسهیل و یاری رساندن به کاربران در زمینه انتخاب و یافتن کالای مورد نیاز ایشان با بهره گرفتن از علوم و روش های مبتنی بر داده کاوی اطلاعات، ایجاد و توسعه یافته­اند. همچنین در سالهای اخیر ظهور و گسترش شبکه­ های اجتماعی و شبکه­ های مبتنی بر رابطه اعتماد میان کاربران، باعث گشوده شدن افق جدیدی در ارائه سیستمهای توصیه­گر و توسعه نسل جدیدی از اینگونه سیستمها گردیده است و آنرا به یکی از موضوعات جذاب و مورد توجه محققان تبدیل نموده است.

از میان روشها و مدل­های موجود در زمینه سیستمهای توصیه­گر روش پالایش گروهی به لحاظ سادگی پیاده­سازی از محبوبیت قابل ملاحظه­ای برخوردار است اما این روش در ارائه پیشنهادات مناسب و قابل قبول به کاربران تازه وارد دارای ضعف­های جدی می­باشد. سیستمهای توصیه­گر مبتنی بر اعتماد، با بهره­ گیری از رابطه اعتماد میان کاربران، در جهت رفع نقاط ضعف بیان شده و خصوصا ارائه پیشنهادات مناسب به کاربران تازه وارد گامهای موثری برداشته اند. در این تحقیق سعی شده است تا از تلفیق و ترکیب روش­های موجود در زمینه پالایش گروهی و همچنین مدلهای مبتنی بر اعتماد و بررسی نقاط ضعف و قوت آنها مدلی نوین و توسعه یافته ارائه گردد که در آن نتایج از خطای کمتر و دقت بالاتری برخوردار بوده و با افزایش معیار پوشش  بتوان به درصد بیشتری از کاربران پاسخ مناسب ارائه نمود. برای این منظور در میان انواع روش های پالایش گروهی، روش مبتنی بر آیتم و برای پیمایش شبکه اعتماد میان کاربران نیز از روش پیمایش تصادفی بهره گرفته شده است، همچنین با تفسیر و تعدیل نظرات کاربران و اتخاذ شیوه­ای مناسب جهت محاسبه مقدار دقیق اعتماد میان کاربران و تغییر در نحوه پیمایش شبکه اعتماد میان ایشان سعی در بهبود و کاهش خطاهای نتایج گردیده است. در نهایت، جهت ارزیابی و برآورد مدل ترکیبی ارائه شده، نتایج و آمارهای حاصل از اجرای مدل پیشنهادی بر روی مجموعه داده های Epinions و Movielens و مقایسه آنها با نتایج مدل پایه TrustWalkerبه عنوان یکی از بهترین مدلهای ترکیبی ارائه شده در زمینه سیستمهای توصیه گر مبتنی بر اعتماد، ارائه می­گردد.

 

واژه­های کلیدی: داده ­کاوی[1]، شبکه­ های اجتماعی[2]، شبکه­ های مبتنی بر اعتماد[3]، سیستمهای توصیه­گر[4]، پالایش گروهی[5]، اعتماد[6]، پیمایش تصادفی[7]، ترکیب سازی[8]

 

 

فهرست مطالب

 

عنوان…………………………………………………………………………………………………………….صفحه

 

فصل اول : مقدمه­ای بر انواع سیستم توصیه­گر…………………………………………………1

       1-1- مقدمه…………………………………………………………………………………………………………………..2

1-2- سیستمهای توصیه­گر…………………………………………………………………………………………..3

1-3- انواع سیستمهای توصیه­گر از لحاظ عملکردی……………………………………………………4

1-4- مزایا و اهمیت یک سیستم توصیه­گر کارآمد………………………………………………………5

1-5- معایب و مشکلات کلی سیستمهای توصیه­گر……………………………………………………..6

1-6- انواع رویکردها و مدلهای موجود در زمینه پیاده­سازی سیستمهای توصیه­گر…….7

1-7- تشریح و بیان مسئله………………………………………………………………………………………….11

1-8- اهداف تحقیق…………………………………………………………………………………………………….12

1-9- سوالات و فرضیه ­های تحقیق…………………………………………………………………………….13

1-10- مراحل تحقیق…………………………………………………………………………………………………14

1-11- فصول پایان نامه……………………………………………………………………………………………..15

 

فصل دوم : بر ادبیات تحقیق و مبانی نظری تحقیق………………………………17

       2-1- مقدمه ……………………………………………………………………………………………………………….18

2-2- پالایش گروهی (Collaborative Filtering)…………………………………………….19

2-2-1- پالایش گروهی مبتنی بر حافظه(Memory Based)……………………………..20

2-2-1-1- روش پالایش گروهی مبتنی بر آیتم ………………………………………………………22

2-2-1-2- امتیازدهی به صورت پیش فرض……………………………………………………………..24

2-2-1-3- تشدید حالت(Case Amplification)……………………………………………….24

2-2-2- پالایش گروهی مبتنی بر مدل(Model Based)……………………………………..25

2-3- پالایش محتوایی (Content Based Filtering) ………………………………………26

2-4- تکنیکهای ترکیبی……………………………………………………………………………………………..27

2-5- سیستمهای توصیه­گر مبتنی بر رابطه اعتماد میان کاربران……………………………..28

2-5-1- چگونگی کارکرد سیستم توصیه­گر مبتنی بر اعتماد……………………………………30

2-5-2- مزایا و معایب………………………………………………………………………………………………..31

2-5-3- انتشار اعتماد و تجمیع اعتماد………………………………………………………………………33

2-6- چالش ها و محدودیتهای موجود………………………………………………………………………33

2-6-1- نقصان و کاستی اطلاعات……………………………………………………………………………..34

2-6-2- مشکل کاربران تازه وارد………………………………………………………………………………..34

2-6-3- کلاهبرداری و تقلب………………………………………………………………………………………35

2-6-4- پیچیدگیهای محاسباتی و زمانی…………………………………………………………………..36

2-7- معیارهای ارزیابی سیستمهای توصیه­گر……………………………………………………………37

2-7-1- خطای جذر میانگین مربعات (RMSE)…………………………………………………….37

2-7-2- معیار درصد پوشش………………………………………………………………………………………38

2-7-3- معیار دقت…………………………………………………………………………………………………….39

2-7-4- معیار F-Measure…………………………………………………………………………………….39

 

فصل سوم : بر مطالعات و تحقیقات پیشین…………………………………………..41

       3-1- مقدمه………………………………………………………………………………………………………………..42

3-2- مرور کارهای گذشته………………………………………………………………………………………….42

3-2-1- مدل MoleTrust………………………………………………………………………………………45

3-2-2- مدل TidalTrust………………………………………………………………………………………47

3-2-3- مدل دانه سیب……………………………………………………………………………………………..48

3-2-4- مدل ارائه شده توسط  Anderson……………………………………………………………48

3-2-5- مدل ارائه شده توسط  O’Donovan………………………………………………………..49

3-2-6- مدل TrustWalker………………………………………………………………………………….50

3-2-6-1- ساختار مدل TrustWalker…………………………………………………………………51

3-2-6-2- تشابه آیتم ها……………………………………………………………………………………………51

3-2-6-3- خصوصیات ویژه مدل TrustWalker…………………………………………………..52

3-2-6-3-1- فراگیری و عمومیت مدل…………………………………………………………………….52

3-2-6-3-2- اطمینان به نتایج حاصل………………………………………………………………………53

3-2-6-3-3- تفسیرپذیری و قابل توضیح بودن نتایج………………………………………………54

3-2-6-4- نمایش ماتریسی مدل TrustWalker………………………………………………….54

3-2-6-5- نتیجه گیری در خصوص مدل TrustWalker…………………………………….55

مقالات و پایان نامه ارشد

 

 

فصل چهارم : تشریح مدل ترکیبی پیشنهادی و چگونگی توسعه و بهبود مدل پایه.56

       4-1- مقدمه………………………………………………………………………………………………………………..57

4-2- تشریح مدل کلی TrustWalker…………………………………………………………………..57

4-2-1- علائم نشانه گذاری و متغیرهای مدل…………………………………………………………..57

4-2-2- روند یک پیمایش تصادفی در شبکه…………………………………………………………….58

4-2-3- انتخاب تصادفی یک کاربر …………………………………………………………………………..59

4-2-4- انتخاب یک آیتم مشابه…………………………………………………………………………………59

4-2-5- تشابه آیتم ها…………………………………………………………………………………………………60

4-2-6- محاسبه احتمال ماندن در یک گره شبکه اعتماد ( )………………………..61

4-2-7- چگونگی انجام پیش ­بینی امتیاز……………………………………………………………………62

4-2-8- چگونگی محاسبه احتمال ………………………………………….63

4-2-9- چگونگی محاسبه عملی ……………………………………………………………………….64

4-2-10- شرط اتمام کلی مدل………………………………………………………………………………….64

4-3- بهبود و توسعه مدل TrustWalker………………………………………………………………65

4-3-1- استفاده از فرمول jaccard جهت محاسبه تشابه آیتمها…………………………….66

4-3-2- حذف میانگین از فرمول پیرسون………………………………………………………………….67

4-3-3- استفاده از تکنیک مبتنی بر آیتم خالص………………………………………………………67

4-3-4- تعدیل و تفسیر نظرات کاربران……………………………………………………………………..68

4-3-5- محاسبه دقیق مقدار اعتماد یا امتیاز رابطه میان دو کاربر…………………………..71

4-3-6- محاسبه ترکیبی امتیاز رابطه میان کاربران………………………………………………….73

 

فصل پنجم :  تشریح روند انجام آزمایشات و نتایج حاصل………………………………76

5-1- مقدمه………………………………………………………………………………………………………………..77

5-2- معرفی مجموعه داده epinions……………………………………………………………………..77

5-2-1- ویژگیهای مجموعه داده epinions……………………………………………………………79

5-2-2- آماده سازی و نحوه پالایش داده ­ها……………………………………………………………….81

5-2-3- ایجاد مجموعه داده نمونه……………………………………………………………………………..83

5-3- مجموعه داده movielens……………………………………………………………………………..84

5-3-1- ویژگیهای مجموعه داده movielens………………………………………………………..84

5-4- نیازمندیهای نرم افزاری…………………………………………………………………………………….85

5-5- نیازمندیهای سخت افزاری………………………………………………………………………………..85

5-6- متدولوژی نرم افزاری…………………………………………………………………………………………86

5-7- پارامترهای پیش فرض انجام آزمایشات…………………………………………………………….86

5-8- نتایج اجرای آزمایشات با مجموعه داده epinions و movielens……………..87

5-8-1- بررسی تاثیر عمق پیمایش بر روی نتایج حاصل در خصوص کاربران تازه وارد……………………………………………………………………………………………………………………………….87

5-8-2- بررسی تاثیر تاریخ اعلام نظرات توسط کاربران……………………………………………88

5-8-3- بررسی تاثیر تغییر فرمول محاسبه تشابه آیتمها………………………………………….89

5-8-4- بررسی تاثیر بکارگیری مکانیزم تفسیر و تعدیل نظرات کاربران………………….90

5-8-5- بررسی تاثیر بکارگیری انواع روش های ترکیبی برای انتخاب کاربران و پیمایش شبکه…………………………………………………………………………………………………………………………….93

5-8-5-1- نحوه محاسبه امتیاز رابطه موجود میان کاربران……………………………………..93

5-8-5-2- بررسی تاثیر بکارگیری روش های ترکیبی در عملکرد سیستم برای تمامی کاربران………………………………………………………………………………………………………………………….94

5-8-5-3- بررسی تاثیر بکارگیری روش های ترکیبی در عملکرد سیستم برای کاربران تازه وارد ………………………………………………………………………………………………………………………99

5-8-6- بررسی تاثیر بکارگیری توام مکانیزم تفسیر امتیازات کاربران به همراه استفاده از روش های ترکیبی انتخاب کاربران و پیمایش شبکه اعتماد……………………………………101

5-9- انجام آزمایشات با مجموعه داده movielens……………………………………………..107

5-9-1- نتایج حاصل از اجرای روش های ترکیبی مورد استفاده در مدل توسعه یافته…………………………………………………………………………………………………………………………..107

 

فصل ششم : نتیجه گیری نهایی و کارهای آینده…………………………………………….110

6-1- مقدمه………………………………………………………………………………………………………………111

6-2- عملکرد مدل توسعه یافته……………………………………………………………………………….112

6-2-1- عملکرد مدل توسعه یافته در خصوص تمامی کاربران………………………………112

6-2-2- عملکرد مدل توسعه یافته در خصوص کاربران تازه وارد…………………………..114

6-3- نتیجه گیری نهایی …………………………………………………………………………………………115

6-3-1- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده epinions………………………………………………………………………………………………………………..116

6-3-2- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده movielens…………………………………………………………………………………………………………….118

6-4- پیشنهادات کارهای آینده……………………………………………………………………………….118

 

اختصارات…………………………………………………………………………………………………..120

فهرست منابع……………………………………………………………………………………………..121

فهرست جداول

 

عنوان………………………………………………………………………………………………………………….صفحه

 

جدول 3-1 : دسته­بندی مدلهای اعتماد……………………­……………………………………………………………..44

جدول 4-1 : ماتریس پراکندگی نحوه امتیازدهی دو کاربر  و ……………………………………­70

جدول 4-2 : تفسیر نظرات کاربر ……………………………………………………………………………………..70

جدول 5-1 : ساختار جدول reviews………………………………………………………………………­……………81

جدول 5-2 : ساختار جدول WOT………………………………………………………………………………­…………82

جدول 5-3 : ساختار جدول  cold_start_users…………………..­……………………………………………82

جدول 5-4 : ساختار جدول ratings­………………………………………………………………………………………83

جدول 5-5 : مقادیر پیش فرض پارامترها و متغیرهای مورد استفاده در مدل پیشنهادی­………86

جدول 5-6 : نتایج بررسی تاثیر عمق پیمایش در خصوص کاربران تازه وارد­………………………….88

جدول 5-7 : نتایج حاصل از بررسی تاثیر تاریخ اعلام نظرات کاربران­……………………………………..89

جدول 5-8 : نتایج حاصل از تغییر فرمول محاسبه تشابه آیتمها­…………………………………………….90

جدول 5-9 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران­…………………….91

جدول 5-10 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران در خصوص کاربران تازه وارد­…………………………………………………………………………………………………………………………91

جدول 5-11 : نتایج حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه­……………………………………………………………………………………………………………………………………………..96

جدول 5-12 : نتایج حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد­…………………………………………………………………………………………………………99

جدول 5-13 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه­…………………………102

جدول 5-14 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد­…………………………………………………………………………………………………………………………………………..104

جدول 5-15 : نتایج حاصل از اجرای روش های ترکیبی انتخاب کاربران و پیمایش شبکه……107

جدول 5-16 : نتایج حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روش های ترکیبی انتخاب کاربران و پیمایش شبکه…………………………………………………………………108

جدول 6-1 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه  …………………………………………………………………………………………………………………………………………………113

جدول 6-2 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه در خصوص کاربران تازه وارد………………………………………………………………………………………………………..114

 

 

فهرست اشکال و نمودارها

 

عنوان………………………………………………………………………………………………………………….صفحه

 

شکل 2-1 : چگونگی کارکرد روش پالایش گروهی (Collaborative Filtering)……………20

شکل 2-2 : نمایش یک شبکه اعتماد به همراه امتیازات بیان شده توسط کاربران در خصوص آیتمهای مختلف…………………………………………………………………………………………………………………………31

شکل 3-1 : معماری مدل MoleTrust ارائه شده توسط Massa……………………………………….46

شکل 5-1 : بنر صفحه اصلی سایت epinions………………………………………………………………………78

نمودار 5-1 : مقایسه نتایج خطای RMSE و درصد پوشش مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران   ……………………………………………………………………………………………………………………………………………………92

نمودار 5-2 : مقایسه نتایج معیارF-measure مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران…………93

نمودار 5-3 : مقایسه نتایج معیاردرصد پوششحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………97

نمودار 5-4 : مقایسه نتایج  خطای RMSEحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………98

نمودار 5-5 : مقایسه نتایج معیار F-measureحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه……………………………………………………………………………………………….98

نمودار 5-6 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..100

نمودار 5-7 : مقایسه نتایج خطای RMSE حاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………….100

نمودار 5-8 : مقایسه نتایج معیار F-measureحاصل از اجرای روش های ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..101

نمودار 5-9 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..103

نمودار 5-10 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه  …………………………………………………………………………………………………………………………………………………103

نمودار 5-11 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..104

نمودار 5-12 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………105

نمودار 5-13 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد……………………………………………………………………………………………………………..106

نمودار 5-14 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روش های ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………106

نمودار 5-15 : مقایسه نتایج خطای RMSE حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روش های ترکیبی انتخاب کاربران و پیمایش شبکه………………..109

نمودار 6-1 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه از نظر تمام معیارهای ارزیابی……………………………………………………………………………………………………………………………………..113

نمودار 6-2 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه برای کاربران تازه وارد از نظر تمام معیارهای ارزیابی………………………………………………………………………………………………….115

 

[1] Data Mining

[2] Social Networks

[3] Trust Networks

[4] Recommender Systems

[5] Collaborative Filtering(CF)

[6] Trust

[7] Random Walk

[8] Hybridization

مقدمه

 

گسترش سریع و روز افزون اطلاعات ارائه شده بر روی شبکه جهانی اینترنت، کاربران را با مشکلات عدیده و قابل تاملی در خصوص انتخاب منابع و اطلاعات مورد نیاز ایشان مواجه نموده است و چه بسا که بدون راهنمایی و هدایت صحیح، کاربران در اخذ تصمیمات صحیح یا انتخاب کالا و خدمات مورد نیازشان دچار اشتباه شده که این امر تبعات عدیده­ای از جمله نارضایتی، سلب اطمینان کاربران و مشتریان سایتهای موجود بر روی اینترنت را به همراه خواهد داشت. از اینرو وجود ابزار و سیستمهایی برای کمک به کاربران در انتخاب اطلاعات مناسب و مورد نیاز ایشان کاملا ضروری به نظر می­رسد. در سالهای اخیر برای برآورده سازی این نیازها سیستمهای توصیه­گرمطرح و توسعه یافته­اند و الگوریتمها ، مقالات و متون علمی بسیار متنوع و مختلفی در این زمینه مطرح گردیده است .

در این میان، ایجاد و گسترش شبکه­ های اجتماعی، شبکه­ های اعتماد و وجود انواع روابط میان کاربران این شبکه­ ها افق جدیدی را برروی محققان و توسعه دهندگان سیستمهای توصیه­گر گشوده است تا با بهره­ گیری از علوم اجتماعی و علوم روان شناختی حاکم در این شبکه­ ها و خصوصا وجود رابطه اعتماد میان کاربران بتوانند نسل جدیدی از سیستمهای توصیه­گر را تحت عنوان “سیستمهای توصیه­گر مبتنی بر اعتماد[1]”معرفی و عرضه نمایند. این سیستمها قادر هستند تا به درصد بیشتری از کاربران پاسخ مناسب را ارائه دهند و همچنین نتایج آنها از دقت بالاتری برخوردار می­باشد.

با توجه به کثرت کاربران و افراد عضو شبکه­ های مبتنی بر اعتماد و شبکه­ های اجتماعی، همچنین تنوع رفتار و ویژگی­های ایشان، تنها یک شیوه یا یک مدل قادر به پاسخگویی و ارائه پیشنهادات دقیق و قابل قبول نمی ­باشد که این امر باعث ظهور سیستمهای توصیه­گر ترکیبی[2]گردیده است. در این سیستمها سعی شده است تا با ترکیب انواع مختلفی از سیستمهای توصیه­گر بتوان سیستمی تولید نمود که دارای مزایای حداکثری و معایب حداقلی باشد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...