حذف نویز در گفتارهای نویزی ضبط شده: که در آنها صدای ضبط شده اشخاص آغشته به نویز است و جهت بهبود کیفیت آنها، باید نویز را حذف کرد.
و موارد دیگر کاربرد …
هر یک از این کابردها، ممکن است هدف خاص خود را دنبال کنند. مثلا در برخی موارد، هدف، افزایش قابلیت درک گفتار میباشد، در حالی که در کاربردهای دیگر، کاهش خستگی شنونده هدف اصلی فرایند بهسازی گفتار میباشد. بدین ترتیب، در کاربردهای مختلف، روش ارزیابی کیفیت گفتار بهسازی شده را برای آن کاربرد تعریف می کنند.
۱-۴- طبقه بندی روش های های بهسازی گفتار
از آنجا که بسیاری از منابع و مراجع در بحث بهسازی گفتار، نویز را به عنوان اصلی ترین عامل تخریب سیگنال گفتار در نظر گرفته اند، در این پایان نامه، توجه ما نیز از میان عوامل مختلف تخریب سیگنال گفتار، روی نویز متمرکز می باشد. مسایل بهسازی گفتار، خانواده گسترده ای از مباحث را شامل می شود، بعضی از روش های بهسازی گفتار بر مبنای مدل آماری می باشند، در حالی که بعضی دیگر به جنبه های ادراکی گفتار توجه دارند. همچنین تکنیک های بهسازی گفتار را می توان بر حسب اینکه تککاناله[۱۸] یا دوکاناله (یا چند کاناله[۱۹]) هستند، تقسیم بندی کرد. در کاربردهای تککاناله، تنها یک میکروفن در دسترس است و لذا مشخص کردن خصوصیات نویز باید در فواصل زمانی سکوت بین گفتارها انجام شود. در الگوریتم های دو کاناله، امواج صدا در هر سنسور با اختلاف زمانی کمی می رسند و به شکل طبیعی، یکی تاخیر یافته دیگری است. تکنیک های بهسازی دو یا چندکاناله بر مبنای دو سناریو هستند: اول اینکه کانال اصلی شامل گفتار آغشته به نویز و کانال دوم شامل نویز دارای همبستگی با نویز کانال اصلی است. عموما یک حامل صوتی بین سنسورها وجود دارد تا اطمینان حاصل شود که هیچ گفتاری به کانال مرجع نویز نشت نکرده است. در سناریوی دوم نیز هیچ حامل صوتی وجود ندارد. در نتیجه عوامل مؤثر بر سیستم بهسازی گفتار عبارتند از:
نوع نویز
چگونگی برهمکنش نویز با سیگنال اصلی
تعداد کانال یا میکروفن در دسترس
نویز ممکن است ناشی از همهمه، باد، ترافیک، کارخانه، اتومبیل و … بوده و در واقع از لحاظ طیفی، دارای شکل های مختلفی باشد و لذا اثرات مختلفی را روی سیگنال گفتار بر جای بگذارد. به عنوان مثال، نویزهای با محتوای فرکانسی ۵۰۰ هرتز تا ۵ کیلوهرتز به شدت قابلیت درک گفتار را کاهش می دهند، در حالی که نویزهای حاوی انرژی در فرکانس های بالای ۵ کیلوهرتز، اگرچه باعث خستگی شنونده می شوند، ولی در قابلیت درگ گفتار اثر ناچیزی دارند.
چگونگی برهم کنش نویز با سیگنال اصلی نیز مساله مهمی است که بر سیستم بهسازی تاثیر می گذارد. نویز ممکن است با سیگنال گفتار جمع، ضرب یا کانوالو[۲۰] شود. همچنین امکان مستقل یا وابسته بودن نویز به سیگنال اصلی نیز وجود دارد. مساله ماهیت ناایستان[۲۱] نویز در بسیاری از منابع نویز، مساله ای است که سیستم بهسازی گفتار را ملزم به نوعی تطبیق زمانی می نماید.
پارامتر مهم دیگر، تعداد کانال ها یا میکروفن هایی است که سیستم بهسازی گفتار از آنها استفاده می کند. به عنوان مثال، وجود یک میکروفن دوم برای داشتن نویز مرجع در کنار میکروفن اول که سیگنال گفتار نویزی را دریافت می کند، موجب می گردد تا سیستم از خواص آماری و طیفی نویز مطلع گشته و در ضمن بتواند ناایستانی نویز را به خوبی دنبال کند. براساس پارامترهای به کار رفته، سیستم های غنی سازی گفتار به چندین اسلوب و شیوه قابل تقسیم بندی اند (جدول ۱-۱).
جدول (۱-۱): تکنیک های مختلف غنی سازی گفتار
حوزه | روش های ممکن |
تعداد کانال | یک/ دو/ چند |
حوزه پردازش | حوزه زمان/ حوزه فرکانس |
نوع الگوریتم | وفقی/ غیر وفقی |
در این فصل به این دلیل که بیشتر انواع سیستم های غنی سازی موجود در اکثر کاربردها از نوع تک کاناله می باشد، بحث و بررسی خود را به سیستم های تک کاناله معطوف می کنیم.
۱-۴-۱- کاهش نویز با بهره گرفتن از خاصیت تناوبی گفتار
این روش ها از طبیعت شبه متناوب سیگنال گفتار بهره می گیرند. سیگنال های صدادار گفتار[۲۲] در طبیعت با فرکانس پایه مشخص می شوند که از شخصی به شخص دیگر متغیرند. با این حال، چنین تکنیک هایی به شدت، به تخمین درست تناوب گام[۲۳] سیگنال (عکس فرکانس گام) صدای گوینده وابسته اند.
یکی از روش های ساده بر این مبنا روش فیلترهای شانهای وفقی[۲۴] ]۴[ است. در این روش از یک سری از فیلترها برای فیلتر کردن محتویات فرکانسی بین فرکانس اصلی و هارمونیک های آن استفاده می شود. روش دیگر در این زمینه، تکنیک حذف نویز وفقی تک کاناله[۲۵] ]۵[ می باشد. در این روش، نسخه تاخیر یافته سیگنال به عنوان ورودی به فیلتر LMS[26] در نظر گرفته می شود و در عین حال خود سیگنال به عنوان سیگنال مرجع استفاده می شود. در این روش، تاخیر، نویز را در سیگنال ورودی با آنچه که در سیگنال مرجع حضور دارد ناهمبسته می کند و وقتی که تاخیر برابر با تخمینی از پریود گام سیگنال باشد، آنگاه در محتویات گفتار دو سیگنال همبستگی وجود دارد. شکل (۱-۷) بلوک دیاگرام یک سیستم مبتنی بر این تکنیک را نشان می دهد.
شکل۱-۷- بلوک دیاگرام یک سیستم بهسازی مبتنی بر خاصیت تناوبی گفتار
که در آن ، و به ترتیب سیگنال گفتار تمیز ، نویز و سیگنال نویزی می باشند. یکی از عیوب اساسی این روش ها این است که بهبود چشمگیری در کیفیت نواحی گفتار بی صدا[۲۷] دیده نمی شود. همچنین استفاده از یک الگوریتم دقیق تخمین و استخراج گام جهت حصول کارایی مناسب در این الگوریتم ها الزامی است.
۱-۴-۲- غنی سازی گفتار بر اساس مدل
این دسته از سیستم های غنی سازی گفتار گاهی با نام روش غنی سازی بر مبنای مدل آماری معرفی شده اند [۶]. در مواقعی که دانش و معلوماتی نسبت به مشخصات آماری سیگنال گفتار یا نویز نداریم و به جای آن از مدل هایی مانند مدل صفر- قطب، مدل تمام قطب و یا مدل تمام صفر استفاده کنیم، به کارگیری چنین روش هایی موسوم است. درعوض، مدل های تولید گفتار مانند [۲۸]ARMA، AR[29]، و یا [۳۰]MA استفاده می شوند. بر این اساس، پارامترهای مدل سیگنال گفتار تخمین زده شده و سپس توسط بازسازی بوسیله پارامترهای مدل گفتار یا با بهره گرفتن از یک فیلتر کالمن یا وینر، سیگنال بهسازی شده تخمین زده می شود.
فیلتر وینر، تکنیک وفقی مشهوری است که در بسیاری از روش های بهسازی گفتار به کار گرفته شده است. مبنای اصلی فیلتر وینر تخمین یک فیلتر بهینه از گفتار نویزی ورودی است که با مینیمم کردن [۳۱]MSE بین سیگنال مطلوب و سیگنال تخمینی حاصل می شود. این فیلتر در حوزه فرکانس از رابطه زیر حاصل می شود:
(۱-۲) |