ماشین‌هایی که زبانتان را می‌فهمند [آرشيو] - P30World Forums

Saeed Dz

25-02-2013, 19:45

یكی از كارآمدترین ابزارهای مبادله اطلاعات برای بشر گفتار است. انسان امروزی همواره در این آرزو بوده است كه بتواند به روشی برای كنترل محیط و ارتباط با ابزارها و ماشین‌ها از طریق این ابزار كارآمد یعنی گفتار دست یابد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

از این‌رو در سال‌های اخیر تولید سیستم‌های تشخیص و بازشناسی گفتار در بسیاری از مراكز تحقیقاتی در سطح دنیا مورد توجه قرار گرفته است. با توجه به اهمیت این سیستم‌ها در طراحی و ساخت نسل آینده ابزارهای ارتباطی، طراحی سیستم‌های پیشرفته در بازشناسی گفتار مورد توجه گروهی از پژوهشگران قرار گرفته است.
پژوهشگران دانشكده مهندسی دانشگاه صنعتی امیركبیر از دستیابی به روش جدیدی برای بهبود عملكرد سیستم‌های بازشناسی گفتار در سامانه‌های هوشمند خبر داده‌اند كه براساس آن می‌توان نرم‌افزارهایی را برای فراهم ساختن امكان استفاده از شیوه ارتباطی جدیدی در تلفن‌های همراه و كامپیوترها بدون نیاز به موس و صفحه كلید طراحی كرد.
با مهندس كامران قاصدی دانش‌آموخته كارشناسی ارشد مهندسی پزشكی و مجری این طرح درباره سیستم‌های بازشناسی گفتار و امكانات مختلف این سیستم‌ها گفت‌وگو كرده‌ایم كه در ادامه آن را می‌خوانید.

بازشناسی گفتار در حوزه ارتباطات هوشمند بین انسان‌ها و سیستم‌های كامپیوتری چه جایگاهی دارد؟

مهم‌ترین هدف بازشناسی گفتار كمك به حذف وسایل ارتباطی واسطه نظیر موس و صفحه كلید در كامپیوترها و تلفن‌های همراه است. یعنی به كمك آن می‌توان ابزارهای ارتباطی را از طریق گفتار تحت كنترل قرار داد. با توجه به كاربردهای فراوانی كه بازشناسی گفتار دارد، نقش اساسی این فناوری در حوزه ارتباطات هوشمند مورد توجه قرار گرفته است. در حقیقت 25 سال از زمانی كه نخستین بار روش‌های بازشناسی گفتار مورد توجه قرار گرفت، می‌گذرد. در این پروژه برای به حداقل رساندن نویز یا صداهای مزاحم محیطی و پارامترهای متغیر گفتار از بازشناسی گفتار براساس اطلاعات صوتی و تصویری استفاده شده است. یعنی علاوه بر سیگنال‌های صوتی، تصویر فرد كاربر نیز مشاهده می‌شود و براساس منحنی كه از خطوط دور لب فرد ترسیم می‌شود، ویژگی‌هایی استخراج می‌شود كه در بازشناسی گفتار مورد استفاده قرار می‌گیرد. این فرآیند درست شبیه همان فرآیندی است كه در لب‌خوانی انجام می‌شود. در نهایت این ویژگی‌ها در كنار ویژگی‌ها و خصوصیات صدای فرد برای تشخیص آنچه گفته است مورد استفاده قرار می‌گیرد.

این روش بر چه مبنایی ارائه شده است؟

ما برای این كار با اخذ مجوز از دانشگاه ATH سوئیس پایگاه اطلاعات آنها را دانلود كردیم و سپس روی این داده‌ها برنامه‌هایی را اجرا كردیم و توانستیم به نتایجی در زمینه ارائه روشی جدید برای بازشناسی گفتار دست یابیم. پس از این می‌توان براساس روش جدید ارائه شده با همكاری شركت‌ها، محصولات تجاری را مبتنی بر این روش با بازار عرضه كرد. نتایج این تحقیق نشان می‌دهد این روش جدید در بازشناسی گفتار می‌تواند از فواید بی‌شماری برخوردار باشد. برای مثال محصولات جدید سونی مجهز به نرم‌افزاری است كه از قابلیت تطبیق با صدای صاحبش برخوردار است. در این صورت برای فعال شدن سیستم عامل، دیگر نیازی به حساب كاربری و رمز عبور ندارید بلكه لپ تاپ یا گوشی تلفن همراه مارك سونی شما به محض شنیدن صدایتان فعال می‌شود. بر اساس این نتایج می‌توان نرم‌افزاری را طراحی كرد كه در این طرح، تحقیقات لازم برای ساخت نمونه داخلی آن صورت گرفته است.

ویژگی منحصر به فرد این روش در مقایسه با روش‌های مشابه بازشناسی گفتار چیست؟

این روش جدید در مقایسه با روش‌های قبلی از كاربردهای متنوع‌تری برخوردار است. این روش در نهایت می‌تواند به طراحی و ساخت سامانه‌های هوشمندی منجر شود كه می‌توانند با كاربرانشان ارتباط برقرار كنند. گام بعدی پیشرفت این سیستم‌ها تحلیل محتوایی گفتار است. به عبارت دیگر كامپیوتر جمله شما را نمی‌نویسد بلكه این جمله را درك می‌كند و براساس آن منابعی را كه مرتبط است در اختیارتان قرار می‌دهد. البته پیش از این نیز در این زمینه اقدامات مشابهی نظیر طراحی نرم‌افزارهای هوشمند تایپ توسط گروهی از محققان دانشگاه صنعتی شریف انجام شده بود اما همه روش‌های پیشین دارای محدودیت است. برخی از این محدودیت‌ها ناشی از این است كه كاربر باید حتما در اتاقی كاملا ساكت كه عایق صداست از این نرم‌افزار استفاده كند. اما در دنیای واقعی و روزمره شما در محیطی هستید كه مجموعه‌ای از صداهای محیطی مزاحم و صدای افراد دیگر هم وجود دارد.

چرا به این فكر افتادید كه بهتر است در سیستم‌های بازشناسی گفتار از ویژگی‌های تصویری استفاده كنید؟

انسان‌ این توانایی را دارد كه بتواند تنها صدایی را كه مورد نظرش است، بشنود و بقیه صداها را فیلتر كند. اما ماشین‌ها در این زمینه با محدودیت مواجه هستند. برای مثال، صداهای محیطی و بالا و پایین شدن صداها در این سیستم اختلال ایجاد می‌كند. این روش جدید در مقایسه پیشرفته‌تر است و قابلیت حذف صداهای محیطی را دارد. یكی از راهكارها برای حل این مشكل علاوه بر بهره‌مندی از اطلاعات تصویری این است كه در این روش از الگوی مغز انسان ایده گرفته شود. در قشر كورتكس مغز نواحی جداگانه‌ای تحت عنوان بخش‌های بینایی و شنیداری وجود دارد كه اطلاعات را پردازش می‌كند. در بخش بالاتر پردازش اطلاعات به درك گفتار منتهی می‌شود. در این روش جدید از اطلاعات فیزیولوژیك هم استفاده شده است.

این روش جدید چه امكاناتی را باهدف بهبود ارتباطات هوشمند در اختیار كاربران قرار می‌دهد؟

نتایج به‌دست آمده از این تحقیقات را می‌توان در قالب یك نرم‌افزار ارائه كرد كه روی ابزارهای مختلف قابل نصب است و بر این اساس اپلیكیشن‌هایی برنامه‌نویسی می‌شود. در این زمینه اقدامات مشابهی نیز انجام شده است. برای مثال اپل كه از جمله شركت‌های بزرگ و مطرح در زمینه طراحی و ساخت گوشی‌های هوشمند است از روش مشابهی در طراحی سیستم نرم افزاری نسل جدید گوشی‌های آیفون استفاده كرده است كه ارتباط كاربر با گوشی تلفن همراه را به شیوه‌ای متفاوت امكان‌پذیر می‌سازد. به این ترتیب می‌توانید از گوشی تلفن همراهتان سوالی بپرسید. این نرم‌افزار سوال شما را درك كرده و درباره آن در اینترنت جستجو می‌كند و در نهایت نتیجه جستجو را اعلام می‌كند. در حقیقت این نرم‌افزار از عملكردی شبیه یك منشی اختصاصی برای كاربران برخوردار است. اما اگر بتوان كیفیت بازشناسی گفتار را در این نرم‌افزار ارتقا داد تا ویژگی هوشمندی هم به آن اضافه شود می‌تواند از قابلیت درك عواطف و احساسات كاربران نیز برخوردار شود.

فرانك فراهانی‌جم - گروه دانش
تاثیر فناوری بازشناسی گفتار بر آینده فناوری نخستین سیستم‌های بازشناسی گفتار سال 1332 طراحی شد. یكی از بزرگ‌ترین محدودیت‌های این سیستم‌ها در مقایسه با سیستم‌های امروزی این بود كه این سیستم به شیوه گفتار گسسته كه مستلزم ایجاد وقفه بین كلمات است و به صورت وابسته به شخص گوینده و تنها با تعداد واژه محدودی عمل می‌كرد.
ابتدا استفاده از این فناوری به افرادی كه با ناتوانی در استفاده از شیوه‌های متداول ارتباطی مواجه بودند، محدود می‌شد اما بتدریج محدوده كاربری آنها گسترده‌تر شد.
این سیستم قابلیت اجرا و كنترل گفتاری برنامه‌های كامپیوتری را دارد و به این ترتیب كار با نرم‌افزارها بسیار سریع‌تر می‌شود.
علاوه بر این سیستم‌های بازشناسی گفتار، امكان كنترل از راه دور وسایل و ابزارهای مختلف را نیز فراهم می‌كند. گفتاری شدن نرم‌افزارهای آموزشی و بازی‌ها نیز موجب جذاب‌تر شدن این نرم‌افزار شده است. سیستم‌های بازشناسی گفتار انواع مختلفی دارد.
بعضی از این سیستم‌ها تنها گفتار پیوسته را شناسایی می‌كند و بعضی دیگر تنها در صورتی كه بین كلمات فاصله یا به اصطلاح سكوت وجود داشته باشد واژه‌ها را تشخیص می‌دهد، اما بهترین و ایده‌آل‌ترین سیستم بازشناسی گفتار سیستمی است كه توانایی تشخیص گفتار پیوسته‌ای را كه به گوینده‌ای خاص وابسته نباشد، داشته باشد و بتواند صدای شخص گوینده را از میان مجموع صداهای محیطی تشخیص دهد.
به طور كلی، هدف از طراحی و ساخت این سامانه فراهم كردن امكان ارتباط بین انسان‌ها و ماشین‌های مختلف از جمله رایانه‌ها از طریق گفتار است.
اگر بخواهیم دورنمایی از آینده را ترسیم كنیم باید اشاره كنیم كه بزودی ماشین ها و ابزار دوروبرمان آنقدر هوشمند و طبیعی با ما ارتباط برقرار خواهند كرد كه ما طبیعتا حضور آنها در كنار خودمان را به عنوان موجودی ذی شعور خواهیم پذیرفت. چنین سامانه‌هایی می‌تواند به كودكانی كه دچار محدودیت‌های گفتاری هستند، كمك كند تا بر این محدودیت‌ها غلبه كنند.