پایان نامه : استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی

فهرست مطالب

عنوان صفحه

فصل1: مقدمه…………………………………………………………………………………………………………….1

1-1. موضوع تحقیق…………………………………………………………………………………………..2

1-2. اهمیت و ضرورت تحقیق…………………………………………………………………………….3

1-3. قلمرو تحقیق……………………………………………………………………………………………..4

1-4. فرضیه های تحقیق………………………………………………………………………………………4

1-5. سوالات تحقیق………………………………………………………………………………………….5

1-6. اهداف و کاربردهای تحقیق…………………………………………………………………………5

1-7. نوآوری در تحقیق……………………………………………………………………………………..6

1-7-1. موضوع و داده های استفاده شده در تحقیق……………………………………………..6

1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب……………………………………………..6

1-8.. محدودیتهای تحقیق………………………………………………………………………………..6

1-9. ساختار پایان نامه …………………………………………………………………………………………7

فصل2: ادبیات تحقیق…………………………………………………………………………………………………..8

2-1. مقدمه………………………………………………………………………………………………………9

2-2. داده کاوی…………………………………………………………………………………………………9

2-2-1. مفهوم داده کاوی……………………………………………………………………………….9

2-2-2. مراحل داده کاوی…………………………………………………………………………….10

2-2-3. پیشپردازش…………………………………………………………………………………..10

2-2-3-1. پاکسازی داده………………………………………………………………………11

2-2-3-2. یکپارچهسازی داده………………………………………………………………….11

2-2-3-3. تبدیل داده……………………………………………………………………………..11

2-2-3-4. کاهش داده……………………………………………………………………………12

2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12

2-2-4. داده کاوی………………………………………………………………………………………13

2-2-5. پسپردازش……………………………………………………………………………………14

2-2-6. کاربردهای داده کاوی………………………………………………………………………14

2-3. داده کاوی در پزشکی……………………………………………………………………………….14

2-4. بیماری تنفسی………………………………………………………………………………………….16

2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17

2-4-2. پنومونی…………………………………………………………………………………………17

2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18

2-5. الگوریتمهای ردهبندی………………………………………………………………………………18

2-5-1. درخت تصمیم………………………………………………………………………………..19

2-5-1-1. CHAID…………………………………………………………………………….20

2-5-1-2. ID3……………………………………………………………………………………20

2-5-1-3. C5.0…………………………………………………………………………………..21

2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21

2-5-3. شبکه عصبی………………………………………………………………………………..24

2-5-4. Bagging…………………………………………………………………………………….25

2-5-5. AdaBoost…………………………………………………………………………………27

2-6. پیشینهی تحقیقات در بیماریهای تنفسی……………………………………………………….30

فصل3: داده های نامتوازن……………………………………………………………………………………………32

3-1. مقدمه…………………………………………………………………………………………………….33

3-2. روشهای یادگیری در داده های نامتوازن………………………………………………………33

3-2-1. نمونهبرداری……………………………………………………………………………………33

3-2-1-1. بیشنمونهبرداری تصادفی…………………………………………………………34

3-2-1-2. زیرنمونهبرداری تصادفی…………………………………………………………..34

3-2-1-3. نمونهبرداری آگاهانه……………………………………………………………….34

3-2-1-3-1. EasyEnsemble……………………………………………………….35

3-2-1-3-2. ModifiedBagging………………………………………………….36

3-2-1-4. ترکیب نمونهبرداری و تولید داده……………………………………………….37

3-2-2. روشهای حساس به هزینه…………………………………………………………………39

3-3. معیارهای ارزیابی ردهبند در داده های نامتوازن……………………………………………….41

3-4. معیارهای ارزیابی ردهبند در داده های نامتوازن و چند ردهای…………………………….44

3-4-1. میانگینگیری میکرو………………………………………………………………………..46

3-4-2. میانگینگیری ماکرو…………………………………………………………………………46

فصل4: پیشپردازش داده ها………………………………………………………………………………………..47

4-1. مقدمه…………………………………………………………………………………………………….48

4-2. جمعآوری داده ها…………………………………………………………………………………….48

4-3. ویژگیهای داده ها……………………………………………………………………………………48

4-4. نحوه توزیع داده ها براساس ویژگیها…………………………………………………………..51

4-4-1. نوع بیماری تنفسی……………………………………………………………………………51

4-4-2. سن……………………………………………………………………………………………….52

4-5. پیشپردازشهای انجام شده……………………………………………………………………….53

4-5-1. حذف ویژگیهای اضافی………………………………………………………………….53

4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53

4-5-3. یکپارچهسازی داده………………………………………………………………………….54

4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55

4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران………………………………….55

4-5-4-2. WBC (White Blood Cell)……………………………………………56

4-5-4-3. چه چیزهایی باعث کاهش WBC می شود؟………………………………..56

4-5-4-4. چه چیزهایی باعث افزایش WBC می شود؟………………………………..56

4-5-4-5. جدول گسستهسازی WBC……………………………………………………..57

4-5-4-6. RBC(Red Blood Cell)…………………………………………………57

4-5-4-7. چه چیزهایی باعث کاهش RBC می شود؟…………………………………57

4-5-4-8. چه چیزهایی باعث افزایش RBC می شود؟…………………………………58

4-5-4-9. جدول گسستهسازی RBC………………………………………………………58

4-5-4-10. Hb (Hemoglobin)………………………………………………………..58

4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می شود؟………………………….59

4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می شود؟…………………………59

4-5-4-13. جدول گسستهسازی هموگلوبین………………………………………………59

4-5-4-14. HCT (Hematocrit)……………………………………………………….59

4-5-4-15. چه چیزهایی باعث کاهش HCT می شود؟……………………………….60

4-5-4-16. چه چیزهایی باعث افزایش HCT می شود؟……………………………….60

4-5-4-17. جدول گسستهسازی HCT…………………………………………………….60

4-5-4-18. Plt یا پلاکتها……………………………………………………………………60

4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟……………………………………61

4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟……………………………………61

4-5-4-21. جدول گسستهسازی پلاکت……………………………………………………61

4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61

4-5-4-23. جدول گسستهسازی MCV، MCH و MCHC……………………..62

4-5-4-24. CRP (C-Reactive Protein)…………………………………………63

4-5-4-25. در چه شرایطی CRP افزایش پیدا می کند؟……………………………….63

4-5-4-26. در چه شرایطی CRP کاهش پیدا می کند؟……………………………….63

4-5-4-27. جدول گسستهسازی CRP…………………………………………………….63

4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64

4-5-4-29. جدول گسستهسازی ESR……………………………………………………..64

4-5-4-30. جدول گسستهسازی BS (Blood Suger)…………………………….64

4-5-5. ویژگی داده ها پس از پیشپردازش نهایی……………………………………………..64

4-6 نمونهبرداری…………………………………………………………………………………………….67

فصل5: نتایج و یافته های تحقیق……………………………………………………………………………………69

5-1. مقدمه…………………………………………………………………………………………………….70

5-2. ردهبندی…………………………………………………………………………………………………70

5-2-1. مقایسه الگوریتمهای پایه………………………………………………………………..70

5-2-2. مقایسه روشهای یادگیری در داده های نامتوازن…………………………………74

فصل6: نتیجه گیری و پیشنهادات…………………………………………………………………………………..79

6-1. مقدمه…………………………………………………………………………………………………….80

6-2. نتیجه گیری……………………………………………………………………………………………..80

6-3. پیشنهادها………………………………………………………………………………………………..82

6-3-1. مجموعهی داده……………………………………………………………………………….82

6-3-2. داده کاوی………………………………………………………………………………………82

مراجع…………………………………………………………………………………………………………………….83

پیوست الف: واژهنامه انگلیسی به فارسی………………………………………………………………………. 92

فهرست جدولها

عنوان صفحه

جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41

جدول3-2: ماتریس اغتشاش برای مسائل چند ردهای………………………………………………………44

جدول4-1: ویژگیهای موجود در مجموعه داده اولیه……………………………………………………..49

جدول4-2: اسامی ویژگیها پس از برخی از مراحل پیشپردازش………………………………………54

جدول4-3: ردهبندی فیلد سن به گروه سنی……………………………………………………………………55

جدول 4-4: ردهبندی فیلد آزمایش WBC…………………………………………………………………..57

جدول 4-5: ردهبندی فیلد آزمایش RBC…………………………………………………………………….58

جدول 4-6: ردهبندی فیلد آزمایش Hb………………………………………………………………………..59

جدول 4-7: ردهبندی فیلد آزمایش HCT…………………………………………………………………….60

جدول 4-8: ردهبندی فیلد آزمایش PLT……………………………………………………………………..61

جدول 4-9: ردهبندی فیلد آزمایش MCV…………………………………………………………………..62

جدول 4-10: ردهبندی فیلد آزمایش MCH…………………………………………………………………62

جدول 4-11: ردهبندی فیلد آزمایش MCHC……………………………………………………………..62

جدول 4-12: ردهبندی فیلد آزمایش CRP…………………………………………………………………..63

جدول 4-13: ردهبندی فیلد آزمایش ESR…………………………………………………………………..64

جدول 4-14: ردهبندی فیلد آزمایش BS……………………………………………………………………..64

جدول4-15: ویژگیهای مجموعه داده ثانویه پس از پیشپردازش نهایی……………………………..65

فهرست شکلها

عنوان صفحه

شکل2-1: نمونه ای از یک درخت تصمیم……………………………………………………………………..19

شکل2-2: یک مجموعهی آموزش دوبعدی که داده های آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22

شکل2-3: دو خط جداساز با حاشیههای مختلف…………………………………………………………….23

شکل2-4: افزایش صحت مدل با بهره گرفتن از Bagging…………………………………………………..25

شکل2-5: شبهکد الگوریتم Bagging………………………………………………………………………..26

شکل2-6: شبهکد الگوریتم AdaBoost……………………………………………………………………..28

شکل3-1: شبهکد الگوریتم EasyEnsemble…………………………………………………………….36

شکل3-2: شبهکد الگوریتم ModifiedBagging………………………………………………………37

با فرض k=6

(b) تولید داده براساس فاصلهی اقلیدسی…………………………………………………………38

شکل3-4: ماتریس هزینه چندردهای………………………………………………………………………….40

شکل4-1: توزیع داده ها براساس نوع بیماری تنفسی…………………………………………………………52

شکل4-2: توزیع داده ها براساس سن…………………………………………………………………………….52

شکل4-3: نمونهبرداری طبقه بندی شده…………………………………………………………………………68

شکل5-1: مقایسه الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آزمون)………………71

شکل5-2: مقایسه کارایی الگوریتمها در تشخیص ردههای مختلف…………………………………72

شکل5-3: مقایسه الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آموزش)…………….73

شکل5-4: مقایسه نتایج حاصل از روشهای یادگیری در داده های نامتوازن روی مجموعهی آزمون…………………………………………………………………………………………………………………….75

شکل5-5: مقایسه حساسیت روشهای یادگیری در داده های نامتوازن روی مجموعهی آزمون به تفکیک ردهها……………………………………………………………………………………………………….76

شکل5-6: مقایسه دقت روشهای یادگیری در داده های نامتوازن روی مجموعهی آزمون به تفکیک ردهها…………………………………………………………………………………………………………76

شکل5-7: مقایسه معیارF روشهای یادگیری در داده های نامتوازن روی مجموعهی آزمون به تفکیک ردهها………………………………………………………………………………………………………….78

2-1. مقدمه

در این تحقیق، داده های مربوط به بیماریهای تنفسی با بهره گرفتن از روشهای داده کاوی مورد بررسی قرار گرفتهاند. به همین جهت در این بخش پس از مرور مختصری بر روشها و مراحل داده کاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتمهای داده کاوی مورد استفاده در این تحقیق و همچنین پیشینهی تحقیقات انجام شده در بیماریهای تنفسی پرداختهایم.

2-2. داده کاوی

تکنولوژی مدیریت پایگاه داده های پیشرفته انواع مختلفی از داده ها را می تواند در خود جای دهد، در نتیجه تکنیکهای آماری و ابزار مدیریت سنتی برای آنالیز این داده ها کافی نیست و استخراج دانش[1] از این مقدار حجیم یک چالش بزرگ تلقی می شود. داده کاوی کوششی برای بهدست آوردن اطلاعات مفید از میان این داده هاست و رشد بیرویهی داده ها در سطح جهان اهمیت داده کاوی را دو چندان کرده است.

پایگاه داده های پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این داده ها می تواند دانش جدیدی در حوزه علوم پزشکی تولید کند. به طوریکه امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیم گیری برای تشخیص و معالجهی بیماریها، به یک موضوع ضروری تبدیل شده است.

2-2-1. مفهوم داده کاوی

در یک تعریف غیر رسمی داده کاوی فرایندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباردادهو دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی به طور همزمان از چندین رشته علمی بهره میبرد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستمهای مبتنی بردانش، حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده .

2-2-2. مراحل داده کاوی

داده کاوی اغلب بهعنوان بخشی از فرایند «کشف دانش از پایگاهداده»، تلقی می شود. کشف دانش از پایگاه داده، فرایندی است که داده های خام را به دانش مفید تبدیل می کند که علاوه بر داده کاوی، شامل دو مرحله پیشپردازش و پسپردازش نیز میباشد.

2-2-3. پیشپردازش

هدف پیشپردازش، تبدیل داده های خام به قالبی است که برای تحلیلهای بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگیها و قطعات مختلف داده، کمک می کند. از آنجائیکه داده ها ممکن است با قالبهای مختلف و در پایگاه داده های متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیشپردازش داده لازم است[5].

پیشپردازش داده، یک محدوده وسیع شامل استراتژیها و تکنیکهای مختلفی است که بهصورت بسیار پیچیدهای با یکدیگر در رابطهاند و این ارتباطات پیچیده، معرفی رهیافتها و ایدههای اصلی پیشپردازش را بهصورت منظم و ساختیافته بسیار مشکل می کند.

وظایف پیشپردازش عبارتند از: پاکسازی داده ها[8]، یکپارچهسازی داده ها[9]، تبدیل داده[10]، کاهش داده[11]، تصویر کردن و کاهش بعد[2].

2-2-3-1. پاکسازی داده

خطاهای عملیاتی اغلب باعث میشوند که داده های بهدست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین داده های بیکیفیتی، تمیز شوند. وظایف اصلی پاکسازی داده ها عبارتند از:

پرکردن ویژگیهایی با مقدار گمشده[12] : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن بهصورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با بهره گرفتن از رابطههای بیزی، درخت تصمیم گیری یا پسانمایی[13] ).
شناخت داده های پرت[14] و هموار کردن داده های نویزدار[15].
اصلاح داده های ناسازگار.
رفع مشکل افزونگی که بر اثر یکپارچهسازی داده ها ایجاد شده است.

2-2-3-2. یکپارچهسازی داده

داده کاوی اغلب به یکپارچهسازی داده (ادغام داده ها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که داده ها به شکل مناسب داده کاوی تبدیل شوند. در این مرحله، داده های چندین منبع را در یک مخزن منسجم ترکیب میکنیم.

2-2-3-3. تبدیل داده

در این مرحله، داده ها به شکل مناسب برای داده کاوی تبدیل میشوند. این مرحله، شامل بخشهای زیر میباشد:

هموارسازی: این بخش از تبدیل داده، با حذف نویز سروکار دارد.
تجمیع: شامل عملیات تلخیص و تجمیع روی داده هاست. مثل تبدیل فروش روزانه به فروش هفتگی یا ماهانه.
تعمیم: جایگزینی دادهی سطح پائین با مفاهیم سطح بالاتر. مثل تبدیل متغیر پیوستهی سن به یک مفهوم سطح بالاتر مثل جوان، میانسال یا مسن.
ایجاد ویژگی[16] : گاهی برای کمک به فرایند داده کاوی لازم است که ویژگی جدیدی از روی ویژگیهای موجود ساخته شود.
نرمالسازی: نرمالسازی شامل تغییر مقیاس داده ها به گونه ایست که آنها را به یک دامنه کوچک و معین مثل ] 1،1-[ نگاشت کند. مهمترین روشهای نرمالسازی عبارتند از: Min-Max، Z-Score و نرمالسازی با بهره گرفتن از مقیاسبندی اعشاری[17].

2-2-3-4. کاهش داده

روشهای کاهش داده، می تواند برای بهدست آوردن یک بازنمایی کوچکتر و کاهشیافته از داده، که بسیار کمحجمتر از داده های اصلی بوده و البته یکپارچگی داده های اصلی را حفظ می کند، بهکار میرود. استراتژی های کاهش داده، عبارتند از: تجمیع مکعبی داده[18]، انتخاب زیرمجموعه ای از ویژگیها[19]، کاهش تعداد نقاط، گسستهسازی و تولید سلسله مراتب مفهومی.

1 Knowledge Discovery

[2] Data Warehouse

[3] Knowledge-based System

[4] Knowledge-acquisition

[5] Information Retrieval

[6] High-performance Computing

[7] Data Visualization

6 Data Cleaning

7 Data Integration

8 Data Transformation

9 Data Reduction

1 Missing Value

2 Regression

3 Outlier

4 Noise

1 Feature Creation

2 Normalization by decimal scaling

3 Data cube aggregation

4 Attribute subset selection

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب