روش ارائه شده در این پایان نامه، روشی مبتنی بر دانش است که با بهره­ گیری از اطلاعات تکمیلی پیرامون کلمه­ی مبهم در متن و ارائه­ یک روش امتیازدهی، به رفع ابهام می ­پردازد. به این منظور از یک طرف با بکارگیری وردنت و منابع دیگری که به نوعی مکمل وردنت هستند، فهرستی از کلمات مرتبط با کلمه­ی مبهم تهیه کرده و از طرف دیگر کلمات همراه با کلمه­ی مبهم در متن را از پیکره­ی مورد نظر استخراج می­کنیم. سپس با بهره گرفتن از یک رابطه­ امتیازدهی، معنایی که دارای بیشترین امتیاز است و مرتبط­تر به نظر می­رسد را انتخاب می­کنیم. در نهایت، دقت روش ارائه شده را بررسی کرده و نتایج را با دقت سایر روش­ها مقایسه می­کنیم.

کلمات کلیدی: رفع ابهام معنایی، دیدگاه مبتنی بر دانش، وردنت، وردنت توسعه یافته، ترجمه­ی ماشینی

فهرست مطالب

 عنوان                         صفحه

فصل اول: مقدمه

1-1- مقدمه. 2

1-2- پردازش زبان­های طبیعی.. 3

1-3- ترجمه­ی ماشینی.. 8

1-3-1- روش­های ترجمه­ی ماشینی  10

1-3-1-1- روش­های مبتنی بر قانون.. 11

1-3-1-2- روش­های مبتنی بر پیکره 13

1-3-2- عوامل موثر بر کیفیت ترجمه  15

1-4- ساختار رساله. 17

فصل دوم: رفع ابهام معنایی

2-1- مقدمه. 20

2-2- انواع منابع دانش…. 22

2-2-1- منابع دانش ساختیافته  23

2-2-2- منابع دانش بدون ساختار 24

2-2-2-1 تقسیم ­بندی دیگری از پیکره­ها 25

2-3- رویکردهای مختلف در رفع ابهام معنایی.. 26

2-3-1- دیدگاه مبتنی بر پیکره 26

2-3-1-1- سیستم­های نظارتی.. 26

2-3-1-2- سیستم­های غیرنظارتی.. 27

2-3-2- دیدگاه مبتنی بر دانش    28

2-3-3- دیدگاه ترکیبی و خلاقانه  30

2-4- فاکتورهای ارزیابی.. 30

2-4-1- پوشش    31

2-4-2- دقت   31

2-4-3- درستی و یادآوری  31

2-4-4- F-SCORE  32

فصل سوم: بر کارهای مرتبط پیشین

3-1-  مقدمه. 34

3-2- روش­های نظارتی.. 35

 

مقالات و پایان نامه ارشد

 

3-3- روش­های غیرنظارتی.. 39

3-4- روش­های مبتنی بر دانش…. 41

3-5- روش­های ترکیبی و خلاقانه. 44

فصل چهارم: روش پیشنهادی

4-1- مقدمه. 51

4-2- معرفی ابزارها و منابع مورد استفاده 52

4-2-1- ریشه­یاب   52

4-2-2- برچسب گذار بخشی از گفتار 53

4-2-3- وردنت   54

4-2-4- وردنت توسعه یافته  57

4-2-5- دامنه­ وردنت   59

4-3- مراحل روش پیشنهادی.. 59

4-3-1- استخراج کلمات همراه 60

4-3-1-1- پیش پردازش…. 61

4-3-2- استخراج فهرست لغات   61

4-3-2-1- کلمات مترادف و تعاریف… 62

4-3-2-2- کلیه­ روابط معنایی.. 62

4-3-2-3- هایپرنیم در چند سطح.. 63

4-3-2-4- دامنه­ کلمات… 64

4-3-2-5- امتیازدهی.. 64

فصل پنجم: پیاده­سازی و ارزیابی

5-1-  مقدمه. 67

5-2- نتایج.. 68

فصل ششم: جمع­بندی و نتیجه ­گیری

6-1- جمع­بندی.. 71

6-2- کارهای آتی.. 72

فهرست منابع.. 74

1-1- مقدمه

تولید حجم عظیمی از مقالات و مستندات، جامعه­ علمی را بر آن داشت تا با بهره­ گیری از مزایا و توانایی­های روش­های خودکار جهت پردازش این متون، به حوزه­ای تحت عنوان پردازش زبان­های طبیعی[1] روی آورد. همچنین با توجه به وجود لیستی از معانی کلمات و عبارات یا همان دیکشنری و حتی اختصاص موسساتی جهت تعیین نحوه­ استفاده از یک زبان در برخی از کشورها، اینطور به نظر می­رسد که امکان مکانیزه کردن فهم یک زبان توسط کامپیوتر وجود دارد [1].

مبحث پردازش زبان­های طبیعی خود زیرمجموعه ­ای از حوزه­ گسترده­ی هوش مصنوعی است که توجهات دانشمندان و محققان فراوانی را به خود معطوف کرده است. شاید به ظاهر زبان­هایی که ما در زندگی روزمره برای ایجاد ارتباط با دیگران به کار می­گیریم، ساده باشند. اما در حقیقت این زبان­های انسانی پیچیدگی­های فراوانی دارند که همین پیچیدگی­ها منجر به شکل­ گیری زیرشاخه­های متعددی همچون ترجمه­ی ماشینی[2]، بازیابی اطلاعات[3]، پردازش متون[4]، تشخیص صحبت[5]، تحلیل گرامری[6] ، رفع ابهام معنایی[7] و غیره در زمینه­ پردازش زبان­های طبیعی شده است.

در بین مباحث متفاوتی که در زمینه­ پردازش زبان­های طبیعی موجود است، برای اینجانب ابهام معنایی[8] جذابیت بیشتری داشته که در این پایان نامه به این موضوع پرداخته­ام. ابهام معنایی یکی از مباحث پیچیده و در عین حال پراهمیت است که در شاخه­هایی نظیر ترجمه­ی ماشینی و بازیابی اطلاعات نیز مطرح بوده و بعنوان جزء جدایی ناپذیری از اینگونه سیستم­ها دارای ارزش و حائز اهمیت است.

در واقع این مبحث نشأت گرفته از ابهامی است که در زبان­های طبیعی نهفته است؛ هرچند که وجود این ابهام­ها در اکثر مواقع از دید انسان پوشیده است. آنچه ابهام­های موجود بین سخنگویان بومی را مرتفع می­سازد توانش زبانی آنها، اطلاعات آنها در خصوص جهان پیرامون، طرح پرسش مجدد در صورت وجود یا احساس ابهام و بطور کلی مجموعه ­ای از اطلاعات زبانی و غیرزبانی است که سخنگویان بومی به آن مجهزند [40].

مسأله­ ابهام معنایی شامل تشخیص معنای صحیح یک کلمه با توجه به متنی است که در آن آمده است و در زمینه­ پردازش زبان­های طبیعی به آن رفع ابهام معنایی گفته می­ شود. این مهم در بسیاری از شاخه­های پردازش زبان­های طبیعی نیز مطرح بوده و کاربرد دارد که در این میان اصلی­ترین و مشهودترین مورد استفاده­ی آن در شاخه­ ترجمه­ی ماشینی است. لذا در این فصل ابتدا اشاره­ی کوتاهی به گستره­ی پردازش زبان­های طبیعی و زیرشاخه­های آن داشته، سپس مختصری به شرح مفهوم ترجمه­ی ماشینی و روش­های آن می­پردازیم.

1-2- پردازش زبان­های طبیعی

پردازش زبان­های طبیعی ‌كه معمولاً به اختصار به آن NLP گفته می­ شود یکی از نیازهای عصر فناوری جهت استفاده­ی بهینه از منابع اطلاعاتی است که امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها، توجه به این شاخه بیش از پیش خودنمایی می­ کند.

زبان طبیعی، زبانی است که ما در تعاملات اجتماعی روزمره با بهره گرفتن از آن می­نویسیم و صحبت می­کنیم. زبان­های طبیعی متنوع و فراوانی وجود دارند که ممکن است فرم گفتاری و نوشتاری متفاوتی داشته باشند و از هم مستقل باشند. پردازش زبان‌ها و مکالمات طبیعی یکی از اموری‌ست که با ورود فناوری رایانه‌ای به زندگی بشر مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‌ای که آلن تورینگ[9] از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی[10] داشت، در مرحله­ اول مربوط به پردازش زبان‌های طبیعی می­‌شد. بعلاوه تلاش‌های بسیاری توسط بشر برای پیگیری این امر صورت گرفته بود که به عنوان مثال ماشین لیزا یکی از محصولات این تلاش‌هاست. ماشین لیزا ماشینی بود که با تایپ از راه دور با یک انسان، جملات او را پردازش می‌کرد و جوابی درخور به او می‌داد.

بنابراین می­توان گفت که یکی از زیرشاخه‌های با اهمیت در حوزه­ گسترده­ی هوش مصنوعی پردازش زبان­های طبیعی است؛ تا حدی که بسیاری از متخصصین در زمینه­ هوش مصنوعی بر این باورند كه مهمترین وظیفه ­ای كه هوش مصنوعی باید به آن بپردازد NLP است. دلیلی كه ایشان برای این اعتقاد خود ارائه می­كنند آن است كه پردازش زبان طبیعی راه ارتباط مستقیم انسان و كامپیوتر را از طریق مكالمه باز می­كند. به این ترتیب دیگر برنامه نویسی معمولی و قراردادهای مربوط به سیستم­های عامل كنار گذاشته خواهد شد. همچنین ‌اگر یک كامپیوتر بتواند یک زبان انسانی را درك كرده و به وسیله­ آن صحبت كند، دیگر به بسیاری از وظایفی كه باید توسط مهندسین نرم افزار طراحی شوند نیازی نخواهد بود. اما ابعاد و پیچیدگی­های زبان­های بشری دستیابی كامل به این قابلیت را دشوار ساخته است.

در پردازش زبان­های طبیعی، سعی می­ شود تا قابلیت درك دستوراتی كه به زبان­های انسانی استاندارد نوشته شده ­اند، به كامپیوتر داده شود. یعنی كامپیوتری داشته باشیم که قادر باشد زبان انسان را تحلیل كند، بفهمد و حتی بتواند زبان طبیعی تولید كند. بدیهی است كه در راستای تحقق این هدف، نیاز به دانشی وسیع از زبان است. بنابراین علاوه بر محققان علوم كامپیوتر، دانش زبان­شناسان نیز مورد لزوم می­باشد. در زمینه­ پردازش زبان­های طبیعی باید پاسخ چهار سوال زیر مورد مطالعه قرار گیرد:

  1. یک زبان از چه کلماتی تشکیل شده است؟
  2. چگونه کلمات ترکیب می­شوند تا جملات زبان تشکیل شوند؟
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...