Saeed Dz
25-02-2013, 19:45
یكی از كارآمدترین ابزارهای مبادله اطلاعات برای بشر گفتار است. انسان امروزی همواره در این آرزو بوده است كه بتواند به روشی برای كنترل محیط و ارتباط با ابزارها و ماشینها از طریق این ابزار كارآمد یعنی گفتار دست یابد.
[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
از اینرو در سالهای اخیر تولید سیستمهای تشخیص و بازشناسی گفتار در بسیاری از مراكز تحقیقاتی در سطح دنیا مورد توجه قرار گرفته است. با توجه به اهمیت این سیستمها در طراحی و ساخت نسل آینده ابزارهای ارتباطی، طراحی سیستمهای پیشرفته در بازشناسی گفتار مورد توجه گروهی از پژوهشگران قرار گرفته است.
پژوهشگران دانشكده مهندسی دانشگاه صنعتی امیركبیر از دستیابی به روش جدیدی برای بهبود عملكرد سیستمهای بازشناسی گفتار در سامانههای هوشمند خبر دادهاند كه براساس آن میتوان نرمافزارهایی را برای فراهم ساختن امكان استفاده از شیوه ارتباطی جدیدی در تلفنهای همراه و كامپیوترها بدون نیاز به موس و صفحه كلید طراحی كرد.
با مهندس كامران قاصدی دانشآموخته كارشناسی ارشد مهندسی پزشكی و مجری این طرح درباره سیستمهای بازشناسی گفتار و امكانات مختلف این سیستمها گفتوگو كردهایم كه در ادامه آن را میخوانید.
بازشناسی گفتار در حوزه ارتباطات هوشمند بین انسانها و سیستمهای كامپیوتری چه جایگاهی دارد؟
مهمترین هدف بازشناسی گفتار كمك به حذف وسایل ارتباطی واسطه نظیر موس و صفحه كلید در كامپیوترها و تلفنهای همراه است. یعنی به كمك آن میتوان ابزارهای ارتباطی را از طریق گفتار تحت كنترل قرار داد. با توجه به كاربردهای فراوانی كه بازشناسی گفتار دارد، نقش اساسی این فناوری در حوزه ارتباطات هوشمند مورد توجه قرار گرفته است. در حقیقت 25 سال از زمانی كه نخستین بار روشهای بازشناسی گفتار مورد توجه قرار گرفت، میگذرد. در این پروژه برای به حداقل رساندن نویز یا صداهای مزاحم محیطی و پارامترهای متغیر گفتار از بازشناسی گفتار براساس اطلاعات صوتی و تصویری استفاده شده است. یعنی علاوه بر سیگنالهای صوتی، تصویر فرد كاربر نیز مشاهده میشود و براساس منحنی كه از خطوط دور لب فرد ترسیم میشود، ویژگیهایی استخراج میشود كه در بازشناسی گفتار مورد استفاده قرار میگیرد. این فرآیند درست شبیه همان فرآیندی است كه در لبخوانی انجام میشود. در نهایت این ویژگیها در كنار ویژگیها و خصوصیات صدای فرد برای تشخیص آنچه گفته است مورد استفاده قرار میگیرد.
این روش بر چه مبنایی ارائه شده است؟
ما برای این كار با اخذ مجوز از دانشگاه ATH سوئیس پایگاه اطلاعات آنها را دانلود كردیم و سپس روی این دادهها برنامههایی را اجرا كردیم و توانستیم به نتایجی در زمینه ارائه روشی جدید برای بازشناسی گفتار دست یابیم. پس از این میتوان براساس روش جدید ارائه شده با همكاری شركتها، محصولات تجاری را مبتنی بر این روش با بازار عرضه كرد. نتایج این تحقیق نشان میدهد این روش جدید در بازشناسی گفتار میتواند از فواید بیشماری برخوردار باشد. برای مثال محصولات جدید سونی مجهز به نرمافزاری است كه از قابلیت تطبیق با صدای صاحبش برخوردار است. در این صورت برای فعال شدن سیستم عامل، دیگر نیازی به حساب كاربری و رمز عبور ندارید بلكه لپ تاپ یا گوشی تلفن همراه مارك سونی شما به محض شنیدن صدایتان فعال میشود. بر اساس این نتایج میتوان نرمافزاری را طراحی كرد كه در این طرح، تحقیقات لازم برای ساخت نمونه داخلی آن صورت گرفته است.
ویژگی منحصر به فرد این روش در مقایسه با روشهای مشابه بازشناسی گفتار چیست؟
این روش جدید در مقایسه با روشهای قبلی از كاربردهای متنوعتری برخوردار است. این روش در نهایت میتواند به طراحی و ساخت سامانههای هوشمندی منجر شود كه میتوانند با كاربرانشان ارتباط برقرار كنند. گام بعدی پیشرفت این سیستمها تحلیل محتوایی گفتار است. به عبارت دیگر كامپیوتر جمله شما را نمینویسد بلكه این جمله را درك میكند و براساس آن منابعی را كه مرتبط است در اختیارتان قرار میدهد. البته پیش از این نیز در این زمینه اقدامات مشابهی نظیر طراحی نرمافزارهای هوشمند تایپ توسط گروهی از محققان دانشگاه صنعتی شریف انجام شده بود اما همه روشهای پیشین دارای محدودیت است. برخی از این محدودیتها ناشی از این است كه كاربر باید حتما در اتاقی كاملا ساكت كه عایق صداست از این نرمافزار استفاده كند. اما در دنیای واقعی و روزمره شما در محیطی هستید كه مجموعهای از صداهای محیطی مزاحم و صدای افراد دیگر هم وجود دارد.
چرا به این فكر افتادید كه بهتر است در سیستمهای بازشناسی گفتار از ویژگیهای تصویری استفاده كنید؟
انسان این توانایی را دارد كه بتواند تنها صدایی را كه مورد نظرش است، بشنود و بقیه صداها را فیلتر كند. اما ماشینها در این زمینه با محدودیت مواجه هستند. برای مثال، صداهای محیطی و بالا و پایین شدن صداها در این سیستم اختلال ایجاد میكند. این روش جدید در مقایسه پیشرفتهتر است و قابلیت حذف صداهای محیطی را دارد. یكی از راهكارها برای حل این مشكل علاوه بر بهرهمندی از اطلاعات تصویری این است كه در این روش از الگوی مغز انسان ایده گرفته شود. در قشر كورتكس مغز نواحی جداگانهای تحت عنوان بخشهای بینایی و شنیداری وجود دارد كه اطلاعات را پردازش میكند. در بخش بالاتر پردازش اطلاعات به درك گفتار منتهی میشود. در این روش جدید از اطلاعات فیزیولوژیك هم استفاده شده است.
این روش جدید چه امكاناتی را باهدف بهبود ارتباطات هوشمند در اختیار كاربران قرار میدهد؟
نتایج بهدست آمده از این تحقیقات را میتوان در قالب یك نرمافزار ارائه كرد كه روی ابزارهای مختلف قابل نصب است و بر این اساس اپلیكیشنهایی برنامهنویسی میشود. در این زمینه اقدامات مشابهی نیز انجام شده است. برای مثال اپل كه از جمله شركتهای بزرگ و مطرح در زمینه طراحی و ساخت گوشیهای هوشمند است از روش مشابهی در طراحی سیستم نرم افزاری نسل جدید گوشیهای آیفون استفاده كرده است كه ارتباط كاربر با گوشی تلفن همراه را به شیوهای متفاوت امكانپذیر میسازد. به این ترتیب میتوانید از گوشی تلفن همراهتان سوالی بپرسید. این نرمافزار سوال شما را درك كرده و درباره آن در اینترنت جستجو میكند و در نهایت نتیجه جستجو را اعلام میكند. در حقیقت این نرمافزار از عملكردی شبیه یك منشی اختصاصی برای كاربران برخوردار است. اما اگر بتوان كیفیت بازشناسی گفتار را در این نرمافزار ارتقا داد تا ویژگی هوشمندی هم به آن اضافه شود میتواند از قابلیت درك عواطف و احساسات كاربران نیز برخوردار شود.
فرانك فراهانیجم - گروه دانش
تاثیر فناوری بازشناسی گفتار بر آینده فناوری نخستین سیستمهای بازشناسی گفتار سال 1332 طراحی شد. یكی از بزرگترین محدودیتهای این سیستمها در مقایسه با سیستمهای امروزی این بود كه این سیستم به شیوه گفتار گسسته كه مستلزم ایجاد وقفه بین كلمات است و به صورت وابسته به شخص گوینده و تنها با تعداد واژه محدودی عمل میكرد.
ابتدا استفاده از این فناوری به افرادی كه با ناتوانی در استفاده از شیوههای متداول ارتباطی مواجه بودند، محدود میشد اما بتدریج محدوده كاربری آنها گستردهتر شد.
این سیستم قابلیت اجرا و كنترل گفتاری برنامههای كامپیوتری را دارد و به این ترتیب كار با نرمافزارها بسیار سریعتر میشود.
علاوه بر این سیستمهای بازشناسی گفتار، امكان كنترل از راه دور وسایل و ابزارهای مختلف را نیز فراهم میكند. گفتاری شدن نرمافزارهای آموزشی و بازیها نیز موجب جذابتر شدن این نرمافزار شده است. سیستمهای بازشناسی گفتار انواع مختلفی دارد.
بعضی از این سیستمها تنها گفتار پیوسته را شناسایی میكند و بعضی دیگر تنها در صورتی كه بین كلمات فاصله یا به اصطلاح سكوت وجود داشته باشد واژهها را تشخیص میدهد، اما بهترین و ایدهآلترین سیستم بازشناسی گفتار سیستمی است كه توانایی تشخیص گفتار پیوستهای را كه به گویندهای خاص وابسته نباشد، داشته باشد و بتواند صدای شخص گوینده را از میان مجموع صداهای محیطی تشخیص دهد.
به طور كلی، هدف از طراحی و ساخت این سامانه فراهم كردن امكان ارتباط بین انسانها و ماشینهای مختلف از جمله رایانهها از طریق گفتار است.
اگر بخواهیم دورنمایی از آینده را ترسیم كنیم باید اشاره كنیم كه بزودی ماشین ها و ابزار دوروبرمان آنقدر هوشمند و طبیعی با ما ارتباط برقرار خواهند كرد كه ما طبیعتا حضور آنها در كنار خودمان را به عنوان موجودی ذی شعور خواهیم پذیرفت. چنین سامانههایی میتواند به كودكانی كه دچار محدودیتهای گفتاری هستند، كمك كند تا بر این محدودیتها غلبه كنند.
[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
از اینرو در سالهای اخیر تولید سیستمهای تشخیص و بازشناسی گفتار در بسیاری از مراكز تحقیقاتی در سطح دنیا مورد توجه قرار گرفته است. با توجه به اهمیت این سیستمها در طراحی و ساخت نسل آینده ابزارهای ارتباطی، طراحی سیستمهای پیشرفته در بازشناسی گفتار مورد توجه گروهی از پژوهشگران قرار گرفته است.
پژوهشگران دانشكده مهندسی دانشگاه صنعتی امیركبیر از دستیابی به روش جدیدی برای بهبود عملكرد سیستمهای بازشناسی گفتار در سامانههای هوشمند خبر دادهاند كه براساس آن میتوان نرمافزارهایی را برای فراهم ساختن امكان استفاده از شیوه ارتباطی جدیدی در تلفنهای همراه و كامپیوترها بدون نیاز به موس و صفحه كلید طراحی كرد.
با مهندس كامران قاصدی دانشآموخته كارشناسی ارشد مهندسی پزشكی و مجری این طرح درباره سیستمهای بازشناسی گفتار و امكانات مختلف این سیستمها گفتوگو كردهایم كه در ادامه آن را میخوانید.
بازشناسی گفتار در حوزه ارتباطات هوشمند بین انسانها و سیستمهای كامپیوتری چه جایگاهی دارد؟
مهمترین هدف بازشناسی گفتار كمك به حذف وسایل ارتباطی واسطه نظیر موس و صفحه كلید در كامپیوترها و تلفنهای همراه است. یعنی به كمك آن میتوان ابزارهای ارتباطی را از طریق گفتار تحت كنترل قرار داد. با توجه به كاربردهای فراوانی كه بازشناسی گفتار دارد، نقش اساسی این فناوری در حوزه ارتباطات هوشمند مورد توجه قرار گرفته است. در حقیقت 25 سال از زمانی كه نخستین بار روشهای بازشناسی گفتار مورد توجه قرار گرفت، میگذرد. در این پروژه برای به حداقل رساندن نویز یا صداهای مزاحم محیطی و پارامترهای متغیر گفتار از بازشناسی گفتار براساس اطلاعات صوتی و تصویری استفاده شده است. یعنی علاوه بر سیگنالهای صوتی، تصویر فرد كاربر نیز مشاهده میشود و براساس منحنی كه از خطوط دور لب فرد ترسیم میشود، ویژگیهایی استخراج میشود كه در بازشناسی گفتار مورد استفاده قرار میگیرد. این فرآیند درست شبیه همان فرآیندی است كه در لبخوانی انجام میشود. در نهایت این ویژگیها در كنار ویژگیها و خصوصیات صدای فرد برای تشخیص آنچه گفته است مورد استفاده قرار میگیرد.
این روش بر چه مبنایی ارائه شده است؟
ما برای این كار با اخذ مجوز از دانشگاه ATH سوئیس پایگاه اطلاعات آنها را دانلود كردیم و سپس روی این دادهها برنامههایی را اجرا كردیم و توانستیم به نتایجی در زمینه ارائه روشی جدید برای بازشناسی گفتار دست یابیم. پس از این میتوان براساس روش جدید ارائه شده با همكاری شركتها، محصولات تجاری را مبتنی بر این روش با بازار عرضه كرد. نتایج این تحقیق نشان میدهد این روش جدید در بازشناسی گفتار میتواند از فواید بیشماری برخوردار باشد. برای مثال محصولات جدید سونی مجهز به نرمافزاری است كه از قابلیت تطبیق با صدای صاحبش برخوردار است. در این صورت برای فعال شدن سیستم عامل، دیگر نیازی به حساب كاربری و رمز عبور ندارید بلكه لپ تاپ یا گوشی تلفن همراه مارك سونی شما به محض شنیدن صدایتان فعال میشود. بر اساس این نتایج میتوان نرمافزاری را طراحی كرد كه در این طرح، تحقیقات لازم برای ساخت نمونه داخلی آن صورت گرفته است.
ویژگی منحصر به فرد این روش در مقایسه با روشهای مشابه بازشناسی گفتار چیست؟
این روش جدید در مقایسه با روشهای قبلی از كاربردهای متنوعتری برخوردار است. این روش در نهایت میتواند به طراحی و ساخت سامانههای هوشمندی منجر شود كه میتوانند با كاربرانشان ارتباط برقرار كنند. گام بعدی پیشرفت این سیستمها تحلیل محتوایی گفتار است. به عبارت دیگر كامپیوتر جمله شما را نمینویسد بلكه این جمله را درك میكند و براساس آن منابعی را كه مرتبط است در اختیارتان قرار میدهد. البته پیش از این نیز در این زمینه اقدامات مشابهی نظیر طراحی نرمافزارهای هوشمند تایپ توسط گروهی از محققان دانشگاه صنعتی شریف انجام شده بود اما همه روشهای پیشین دارای محدودیت است. برخی از این محدودیتها ناشی از این است كه كاربر باید حتما در اتاقی كاملا ساكت كه عایق صداست از این نرمافزار استفاده كند. اما در دنیای واقعی و روزمره شما در محیطی هستید كه مجموعهای از صداهای محیطی مزاحم و صدای افراد دیگر هم وجود دارد.
چرا به این فكر افتادید كه بهتر است در سیستمهای بازشناسی گفتار از ویژگیهای تصویری استفاده كنید؟
انسان این توانایی را دارد كه بتواند تنها صدایی را كه مورد نظرش است، بشنود و بقیه صداها را فیلتر كند. اما ماشینها در این زمینه با محدودیت مواجه هستند. برای مثال، صداهای محیطی و بالا و پایین شدن صداها در این سیستم اختلال ایجاد میكند. این روش جدید در مقایسه پیشرفتهتر است و قابلیت حذف صداهای محیطی را دارد. یكی از راهكارها برای حل این مشكل علاوه بر بهرهمندی از اطلاعات تصویری این است كه در این روش از الگوی مغز انسان ایده گرفته شود. در قشر كورتكس مغز نواحی جداگانهای تحت عنوان بخشهای بینایی و شنیداری وجود دارد كه اطلاعات را پردازش میكند. در بخش بالاتر پردازش اطلاعات به درك گفتار منتهی میشود. در این روش جدید از اطلاعات فیزیولوژیك هم استفاده شده است.
این روش جدید چه امكاناتی را باهدف بهبود ارتباطات هوشمند در اختیار كاربران قرار میدهد؟
نتایج بهدست آمده از این تحقیقات را میتوان در قالب یك نرمافزار ارائه كرد كه روی ابزارهای مختلف قابل نصب است و بر این اساس اپلیكیشنهایی برنامهنویسی میشود. در این زمینه اقدامات مشابهی نیز انجام شده است. برای مثال اپل كه از جمله شركتهای بزرگ و مطرح در زمینه طراحی و ساخت گوشیهای هوشمند است از روش مشابهی در طراحی سیستم نرم افزاری نسل جدید گوشیهای آیفون استفاده كرده است كه ارتباط كاربر با گوشی تلفن همراه را به شیوهای متفاوت امكانپذیر میسازد. به این ترتیب میتوانید از گوشی تلفن همراهتان سوالی بپرسید. این نرمافزار سوال شما را درك كرده و درباره آن در اینترنت جستجو میكند و در نهایت نتیجه جستجو را اعلام میكند. در حقیقت این نرمافزار از عملكردی شبیه یك منشی اختصاصی برای كاربران برخوردار است. اما اگر بتوان كیفیت بازشناسی گفتار را در این نرمافزار ارتقا داد تا ویژگی هوشمندی هم به آن اضافه شود میتواند از قابلیت درك عواطف و احساسات كاربران نیز برخوردار شود.
فرانك فراهانیجم - گروه دانش
تاثیر فناوری بازشناسی گفتار بر آینده فناوری نخستین سیستمهای بازشناسی گفتار سال 1332 طراحی شد. یكی از بزرگترین محدودیتهای این سیستمها در مقایسه با سیستمهای امروزی این بود كه این سیستم به شیوه گفتار گسسته كه مستلزم ایجاد وقفه بین كلمات است و به صورت وابسته به شخص گوینده و تنها با تعداد واژه محدودی عمل میكرد.
ابتدا استفاده از این فناوری به افرادی كه با ناتوانی در استفاده از شیوههای متداول ارتباطی مواجه بودند، محدود میشد اما بتدریج محدوده كاربری آنها گستردهتر شد.
این سیستم قابلیت اجرا و كنترل گفتاری برنامههای كامپیوتری را دارد و به این ترتیب كار با نرمافزارها بسیار سریعتر میشود.
علاوه بر این سیستمهای بازشناسی گفتار، امكان كنترل از راه دور وسایل و ابزارهای مختلف را نیز فراهم میكند. گفتاری شدن نرمافزارهای آموزشی و بازیها نیز موجب جذابتر شدن این نرمافزار شده است. سیستمهای بازشناسی گفتار انواع مختلفی دارد.
بعضی از این سیستمها تنها گفتار پیوسته را شناسایی میكند و بعضی دیگر تنها در صورتی كه بین كلمات فاصله یا به اصطلاح سكوت وجود داشته باشد واژهها را تشخیص میدهد، اما بهترین و ایدهآلترین سیستم بازشناسی گفتار سیستمی است كه توانایی تشخیص گفتار پیوستهای را كه به گویندهای خاص وابسته نباشد، داشته باشد و بتواند صدای شخص گوینده را از میان مجموع صداهای محیطی تشخیص دهد.
به طور كلی، هدف از طراحی و ساخت این سامانه فراهم كردن امكان ارتباط بین انسانها و ماشینهای مختلف از جمله رایانهها از طریق گفتار است.
اگر بخواهیم دورنمایی از آینده را ترسیم كنیم باید اشاره كنیم كه بزودی ماشین ها و ابزار دوروبرمان آنقدر هوشمند و طبیعی با ما ارتباط برقرار خواهند كرد كه ما طبیعتا حضور آنها در كنار خودمان را به عنوان موجودی ذی شعور خواهیم پذیرفت. چنین سامانههایی میتواند به كودكانی كه دچار محدودیتهای گفتاری هستند، كمك كند تا بر این محدودیتها غلبه كنند.