| |
| |
معرفی
|
| |
تقريبا هر جا كه از مدل زباني در سيستمي استفاده مي شود، تعريف مجموعه واژگان و يا مجموعه كلمات ضروري است و تعريف آنها بدون در دست داشتن كلمات پركاربرد زبان امكان پذير نيست. براي استخراج كلمات پركاربرد، از پيكره متني زبان فارسي استفاده شده است. با استخراج كلمات پركاربرد، مجموعه كلمات حاوي 5000، 10000 و 20000 كلمه تهيه شده است. مجموعه كلمات شامل خود كلمه و اطلاعاتي اضافي در مورد كلمه مانند صورت واجي كلمه با در نظر گرفتن تلفظ هاي ممكن از آن، مقوله يا مقوله هاي نحوي كلمه به همراه تعداد دفعات رخداد آن كلمه در پيكره متني مي باشد. در مجموعه كلمات ذكر شده، علاوه بر ريشه كلمات، مشتقات پركاربرد آنها نيز لحاظ شده است. در كنار اين مجموعه كلمات، مجموعه واژگان هايي شامل 10000 و 20000 مدخل كه در آنها فقط ريشه كلمات ذخيره شده است تهيه گرديده اند.
|
|
|
|