پروژههاي تحقيقاتي شرکت عصر گويش پرداز
ليست و توضيح پروژههاي تحقيقاتي شرکت عصر گويش در زير آورده شده است. براي ديدن ليست مقالات و انتشارات ميتوانيد از صفحه مربوطه استفاده نماييد.
نويسا: تايپ گفتاري
مهمترين پروژه در حال اجراي واحد تحقيقات شرکت، پروژه ديکته گفتاري زبان فارسي (نويسا) ميباشد. به کمک نويسا ديگر لازم به تايپ يا نوشتن متن نيست، بلکه تنها لازم است که متن خوانده شده آنگاه رايانه آن را براي شما تايپ مينمايد. در اين پروژه تحقيقاتي روشهاي مرسوم و نوين در بازشناسي گفتار مورد استفاده قرار گرفته است. موتور و هسته اصلي بازشناسي گفتار پيوسته به صورت مستقل از گوينده و با واژگان بزرگ آماده گرديده است که تحقيقات براي بهبود بيشتر و افزايش قابليتهاي مختلف به آن در حال انجام است.
مقاومسازي سيستمهاي تشخيص گفتار
اين شرکت تحقيقات گستردهاي روي روشهاي مختلف تشخيص گفتار مقاوم به شرايط محيطي و گويندگان مختلف انجام داده است. اين روشها بر روي موتور بازشناسي گفتار اضافه شده است تا بتوان کار بازشناسي گفتار را در محيطهاي واقعي انجام داد. علاوه بر موتور بازشناسي گفتار، تشخيص گفتار مقاوم در محصولات ديگر مانند محصولات تلفني و براي کاربرد خاص آنها بهينه سازي شده است. تعدادي از روشهاي مقاوم سازي به کار رفته به شرح زير است:
روشهاي مبتني بر ويژگي: CMS, PCA, RASTA-PLP, RCC, Liftering
روشهاي بهبود هنگام صحبت: تفريق طيفي، آرايه ميکروفني و beam-forming
روشهاي مبتني بر تطبيق: MLLR و MAP
روشهاي مبتني بر پيش بيني: PMC
روشهاي مبتني بر نرمال سازي گوينده: VTLN
مدلهاي زباني و پردازش زبانهاي طبيعي
براي بسياري از کاربردها مانند تشخيص گفتار، TTS، ترجمه، OCR و پيدا نمودن خطاهاي تايپي، مدلهاي زباني از مهمترين ابزارهاي مورد نياز ميباشد. شرکت عصر گويش روي زبانهاي فارسي و انگليسي روي اين زمينه فعاليت نموده است و توانسته روشهاي آماري و دستور زباني را براي زبان فارسي آماده نمايد. مخصوصا براي دستور زبان فارسي با توجه به کمبود منابع دستور زبان محاسباتي از افراد خبره زبان شناسي استفاده شده است. تعدادي از کارهاي انجام شده به شرح زير است:
مدل احتمالي کلمات تکي، دوتايي، سهتايي و چهارکلمهاي براي زبانهاي فارسي و انگليسي
قوانين دستوري GPSG براي زبان فارسي
دستور زبان احتمالي
پارسرهاي مناسب مدل زباني
روشهاي خوشه بندي کلمات
بازشناسي گفتار تلفني
يکي از کاربردهاي بازشناسي گفتار، استفاده از آن در سيستمهاي تلفني ميباشد که کاربر بتواند در پشت تلفن تنها با بيان عنوان موردنظر به صورت گفتاري، کار خود را انجام دهد. اين پروژه تحولي در سيستمهاي کامپيوتر- تلفني به وجود آورده است. تشخيص گفتار تلفني به دليل شرايط خاص پشت تلفن مانند نويزهاي کانال، محدوديت پهناي باند، تنوع نوع گوشيها، تغييرات شدت صدا، تنوع گوينده و تنوع گويش داراي پيچيدگيهاي خاص خود است. نيوشا نرم افزار توسعه داده شده براي تشخيص گفتار تلفني است که به روشهاي مختلف مقاومسازي مجهز شده است تا قابل استفاده در کاربردهاي واقعي باشد.
بازشناسي گفتار روي رايانههاي جيبي و پردازندههاي خاص
يکي از پروژههاي موجود در گروه تحقيقات شرکت، بازشناسي گفتار روي رايانههاي جيبي، گوشيهاي همراه و پردازندههاي خاصي که عموما داراي توان پردازشي ضعيفتر بوده و قابليت پردازش اعداد اعشاري را ندارند، ميباشد. موتور بازشناسي گفتار مخصوص اينگونه پردازندهها آماده شده است که با سرعت و دقت مناسب کار بازشناسي را انجام ميدهد. نرم افزار مترجم صوتي و اجراي برنامه صوتي دو نمونه از اين نرم افزارها ميباشد که روي PDAهاي آماده شده است.
تشخيص کلمات کليدي گفتار
تشخيص کلمات کليدي گفتار به معناي پيدا کردن يک کلمه يا عبارت خاص در گفتار ميباشد که براي کاربردهاي امنيتي، آرشيوهاي صوتي و جستجوي صوتي قابل استفاده است. نسخههاي تلفني و غيرتلفني اين نرمافزار آماده شده است و تحقيقت براي بهبود آن ادامه دارد.
کلمات خارج از دادگان و معيار اطمينان
براي آماده سازي يک سيستم واقعي، معيار اطمينان يکي از پارامترهاي مهم ميباشد. به کمک معيار اطمينان ميتوان دقت را در موارد خاص بررسي نمود و يا در هنگام آموزش از اين ويژگي استفاده نمود. کاربرد ديگر معيار اطمينان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان يکي از پارامترهاي اصلي سيستمهاي تشخيص فرامين صوتي ميباشد.
بهبود کيفيت گفتار
در زمينه بهبود کيفيت گفتار روشهاي تفريق طيفي، Wiener Filter، Signal sub-space و Array Processing beam-forming پياده سازي و تست شده است.
تشخيص گفتار از غير گفتار (VAD)
براي بازشناسي گفتار پيوسته يا بازشناسي دستورات صوتي در يک رايانه بدون مشخص بودن شروع يا پايان آواها، لازم است که بدانيم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همين دليل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روي گفتار انجام گيرد. در اين تحقيقات دو روش جديد پياده سازي شده است و از روشهاي استاندارد ETSI's AMR ، ITU-T's G.722 VAD براي مقايسه و ارزيابي کارايي استفاده ميشود.
بازشناسي با فاصله و آرايه ميکروفني
تحقيقات گستردهاي در زمينه بازشناسي گفتار از راه دور که منبع صوت دور از ميکروفن بوده و همچنين در زمينه استفاده از آرايه ميکروفني در حال انجام است.
روخواني متن (TTS)
تحقيقات ابتدايي در زمينه روشهاي تبديل متن به گفتار انجام گرفته است. کارهاي انجام گرفته بيشتر در محدوده مدل زباني و آماده نمودن برنامههاي اوليه TTS است. ادامه اين بخش تحقيقاتي بنا به درخواست قابل انجام ميباشد.
تشخيص گفتار بومي از غيربومي
اين کارتحقيقاتي براي زبان فنلاندي شروع شد و تا حدودي کار براي زبان فارسي انجام شده است. با استفاده از اين روش ميتوان امتياز، دقت و درست بودن لهجه، بين يک گوينده با لهجه غيربومي و فرد ديگري با لهجه بومي را پيدا نمود.
محاسبه سريع معيارشباهت
يکي از بارهاي محاسباتي در الگوريتمهاي بازشناسي گفتار بدست آوردن مقدار شباهت است که يکي از گلوگاههاي سيستمهاي بازشناسي گفتار ميباشد. روشهاي بهينهاي براي محاسبه مقدار شباهت پياده سازي شده و به کار گرفته شده است.