امتیاز موضوع:
  • 26 رأی - میانگین امتیازات: 2.81
  • 1
  • 2
  • 3
  • 4
  • 5
استفاده ار فناوری تشخيص گفتار متداول می‌شود كافيست فقط حرف بزنيد
#1
با بانك خود تماس میگيريد. صدای يك نوار را
میشنويد: « برای اطلاع از ميزان پول در حساب كليد 1، برای تغيير رمز كليد 2 و
...» شما هم از اين كه میتوانيد از فناوری روز استفاده كنيد خوشحال میشويد
و اطلاعات مورد نظر را كسب میكنيد؛ اما آيا میدانيد
كه در بعضی كشورهای ديگر برای ارتباطات اين چنينی از فشردن دكمههای تلفن
استفاده نمیكنند؟

در اين كشورها افراد حتی زحمت چنين كاری را به خود نمیدهند بلكه به
راحتی منظور خود را میگويند و سيستم كار را انجام میدهند.
در واقع با استفاده از سيستم تشخيص گفتار يا Speech Recognition اين اتفاق روی میدهد.
لابد میگوييد اين موضوع تازهای
نيست و مدتهاست كه اين حرفها
زده میشود. حق با شماست. بيش از يك دهه است كه محققان سعی میكنند
تا صوت را به عنوان يك ورودی رايانه تعريف كنند. حالا به نظر میرسد اين
تحقيقات به نتايج خوبی رسيدهاند.

طی اين سالها
تلاش زيادی روی تشخيص
گفتار صوت صورت گرفت. اما با توجه به عوامل زيادی
كه در اين الگوريتم موثر هستند، همواره عمليات تشخيص با خطا روبه رو بوده
است. تارهای صوتی انسان خصوصياتی غير خطی دارند و از طرف
ديگر عمليات آنها كاملا در اختيار نيست، بلكه
عوامل مختلفی از جنسيت تا حالت عاطفی فرد در آن تاثيرگذار است. در نتيجه
تلفظ صوتی میتواند

به لهجه، طرز تلفظ، طرز گفتار و ميزان شمرده بودن
آن، درشتی صدا، تودماغی حرف زدن، زير و بمی صدا، درجه صدا (بلندی) و سرعت
ادای كلمات بستگی داشته باشد. علاوه بر اينها از آنجا كه
معمولا افراد در محيطی صحبت میكنند كه صداهای محيطی نيز وجود دارد، اين مسئله
پيچيدهتر میشود
به شكلی كه تشخيص گفتار حتی از توليد گفتار سخت تر و پيچيدهتر میشود.

دقت يك سيستم تشخيص گفتار بستگی به شرايط تست دارد. در شرايط محيطی و گفتاری خاص يك سيستم بسيار خوب عمل میكند
اما در شرايط عمومی اين دقت كاهش میيابد. اين شرايط ابعاد گوناگونی دارند كه
میتوان به اختصار به بعضی از آنها اشاره كرد.

حجم فرهنگ لغت: به عنوان يك قانون عمومی تشخيص يك كلمه ازميان يك مجموعه كوچك بسيار ساده است اما وقتی حجم فرهنگ لغت بالا میرود
ميزان خطا افزايش میيابد؛ مثلا اگر شما تنها كلمات صفر تا 9 را ادا كنيد و
بخواهيد يكی از همين 10 كلمه را تشخيص دهيد، اين كار با دقت خوبی انجام میپذيرد
اما اگر تعداد كلمات به 200، 5000 يا 100هزار برسد، ميزان خطا افزايش بسيار زيادی خواهد داشت.

[font=Tahoma (Arabic)]
[/font]




""







بيش از يك دهه است كه محققان سعی میكنند
تا صوت را به عنوان يك ورودی رايانه تعريف كنند. حالا به نظر میرسد اين تحقيقات
به نتايج خوبی رسيدهاند.




""





مستقل يا وابسته به گوينده: يك سيستم وابسته به گوينده تنها برای يك فرد خاص طراحی شده است اما در يك سيستم مستقل، هر فردی
میتواند گويندگی را به عهده بگيرد و سيستم بايد بتواند تشخيص دهد. مشخص است
كه يك سيستم مستقل از گوينده بسيار مشكلتر است و طبعا ميزان خطای آن نيز
بيشتر است و بين 3 تا 5 برابر ميزان خطای سيستم وابسته به گوينده است.
گفتار مجزا، مقطع يا پيوسته: منظور از گفتار
مجزا بيان تك كلمه است. گفتار مقطع گفتاری است كه جملات كامل اما با سكوتهای
مصنوعی در ميان ادای هر دو كلمه بيان میشوند. گفتار پيوسته همان شيوه معمولی
بيان كلمات است. تشخيص گفتار مجزا و مقطع بسيار سادهتر ميسر میشود
چون كلمات بهتر و راحتتر تشخيص داده میشوند؛
اما در گفتار پيوسته بعضی اصوات حذف میشوند يا تغيير پيدا میكنند.
بنابراين تشخيص اين نوع بسيار مشكلتر است.

گفتار آماده يا اتفاقی: در صورتی كه فرد جملات خود را مطابق متنی از پيش آماده بخواند عمليات تشخيص بسيار سادهتر
از زمانی است كه فرد جملات را فیالبداهه ادا میكند،
چون در حالت دوم فرد ممكن است مكث كند، بعضی اصوات نامفهوم را ادا كند و يا حتی بخندد يا سرفه كند.
متوجه شدهايد
كه عوامل بسيار متفاوتی در كار تاثير گذار هستند و لذا الگوريتمهای پيچيدهای
هستند. اين الگوريتمها را میتوان
در گروههای زير دسته بندی كرد:

  1. مبنی بر الگو: در اين گروه از الگوريتمها، گفتار ورودی
    با الگوهای از پيش ضبط شده مقايسه میشوند
    تا بهترين تطبيق يافت شود.
    دقت اين گروه در ارتباط با الگوهای موجود
    خوب است، اما به هر حال تعداد الگوها ثابت است و اگر بخواهيم با توجه به
    شرايط گفته شده برای هر كلمه الگوهای متفاوتی را قرار دهيم،
    به طور عملی غير ممكن است.
  2. مبتنی بر دانش و آگاهی: در اين الگوريتمها سعی میشود
    مهارت انسان در تشخيص گفتار شبيه سازی شود و در سيستم تعبيه شود.
    اين شيوه اگرچه به نظر بسيار خوب به نظر میرسد،
    اما به دست آوردن اين مهارتها و استفاده از آنها در سيستم
    تشخيص گفتار به راحتی ميسر نيست و در واقع اين روش غيرعملياتی به حساب میآيد.
  3. مبتنی بر آمار: در اين روشها، تغييرات در گفتار به صورت
    آماری مدل میشوند و اين تغييرات آماری كمك میكند
    تا سيستم تشخيص گفتار امكان يادگيری تدريجی داشته باشد.
اما در سيستمهای جديد تشخيص گفتار با استفاده
از شبكههای گسترده عصبی و روشهای
مبتنی بر آمار نتايج بسيار دقيقتر و بهتری گرفتهاند.
در حال حاضر بسياری از شركتهای مهم مانند IBM و مايكروسافت روی اين سيستمها
سرمايه گذاری كردهاند و به نتايج بسيار خوبی رسيدهاند.

يكی از اين سرويس دهندگان تلفن همراه در
كشورفرانسه يك پورتال صوتی راه اندازی كرده است و اخبار و نتايج مسابقههای
ورزشی را از اين طريق در اختيار مشتركان خود قرارمیدهد. شركت ماشين سازی
هوندا نيز يك سيستم راه نوردی با كمك صوت راهاندازی كرده است تا رانندگان
بهتر بتوانند خودرو را هدايت كنند. با اين پيشرفتها به نظر میرسد
كه در آيندهای نه چندان دور فناوری تشخيص گفتار بخشی از زندگی و كار هر روزه
ما خواهد شد.
پاسخ
 سپاس شده توسط farnaz_a ، elahe


پرش به انجمن:


کاربرانِ درحال بازدید از این موضوع: 1 مهمان