| |
| |
معرفی
|
| |
مدل زباني آماري براي زبان فارسي به سه شكل monogram، bigram و trigram تهيه شده است. اين اطلاعات آماري براي زبان فارسي، از يك پيكره متني زبان فارسي كه شامل حدود ده ميليون كلمه است استخراج گرديده اند. منظور از مدل آماري monogram، تعداد دفعات تكرار هر يك كلمه در كل پيكره متني زبان فارسي است و منظور از مدل آماري bigram، تعداد دفعات تكرار هر دوتايي پشت سر هم در پيكره متني فارسي مي باشد. همينطور مدل آماري trigram، تعداد دفعات تكرار هر سه تايي را در پيكره متني نشان مي دهد. در راستاي استفاده از اطلاعات آماري n-gram، اين آمار هم بر اساس خود كلمات (word-based n-gram)، هم بر اساس نقش نحوي كلمات در جملات (POS-based n-gram) و هم بر اساس خوشه بندي كلمات (class-based n-gram) به دست آمده اند. پيكره متني زبان فارسي هم اكنون در حال توسعه مي باشد و همراه با بهبود پيكره متني، آمار به دست آمده از آن نيز به روز مي شود. علاوه بر آماري كه در حال حاضر از پيكره متني استخراج شده است، مي توان آمار متفاوت ديگري نيز بنا به نياز سيستم هاي مختلف به دست آورد. از اطلاعات آْماري n-gram مي توان در سيستم هايي نظير سيستم بازشناسي گفتار پيوسته، تايپ هوشمند و همچنين در سيستمهاي تبديل نوشتار عكس به متن (OCR) بهره جست.
|
|
|
|