سایت مرجع دانلود پایان نامه -پشتیبانی 09361998026

پایان نامه صحت گفتار

ارسال شده در متفرقه

 مطالب این پست : پایان نامه صحت گفتار

   با فرمت ورد (دانلود متن کامل پایان نامه)

فصل اول مقدمه:

صحت و گفتار نقش اساسی در ارتباط انسانها ایفا می‌كنند و یكی از دلایل پیشرفت انسانها است.

برای برقراری ارتباط كامپیوتر با انسان بوسیلة گفتار در كار لازم است انجام شود. یكی سنتزل گفتار است. و دیگری بازشناسی گفتار، سنتز گفتار بیان گفتار بوسیلة كامپیوتر می‌باشد و بازشناسی یعنی فهمیدن گفتار در بازشناسی گفتار. هدف بدست آوردن دنبالة آوایی یك گفتار می‌باشد و این دنبالة آوایی می‌تواند بر اساس واج، سیلاب، كلمه، جمله و … باشد. بازشناسی گفتار عكس عمل سنتز است و گفتار را به متن تبدیل می‌كند. اما انجام بازشناسی گفتار به دلیل خاصیت صدای انسانها، دارای پیچیدگی‌های زیادی است. اما اغلب بازشناسی كامل و درست غیر ممكن است. حتی خود انسانها هم نمی‌توانند به طور كامل همه صداها را بفهمند و میزان، درك گوش انسانها حدود 70% می‌باشد. شكل 1-1 ارتباط گفتاری بین انسانها و كامپیوتر را نشان می‌دهد. به دلیل نقش مهم و كاربردهای فراوانی كه بازشناسی گفتار دارد، تحقیقات و مقاله‌های زیادی در این زمینه انجام شده و راه حل‌های متفاوتی پیشنهاد شده است،‌ ولی بازشناسی گفتار كاملاً درست هنوز امكان‌پذیر نمی‌باشد.

بازشناسی گفتار دارای كاربردهای زیادی است. از جمله كاربردهای بازشناسی گفتار، حل مشكل تایپ است، با كمك بازشناسی گفتار می‌توان جمله‌ها را یكی پس از دیگری خواند و كامپیوتر آنها را تایپ كند. یكی دیگر از كاربردهای بازشناسی گفتار، حل مشكل صحبت دو فرد مختلف همزبان است. یكی از مشكلات انسانها ارتباط با افرادی است كه با زبانهای متفاوت صحبت می‌كنند. ارتباط بدون دانستن زبان مشكل است. و یادگیری یك زبان دیگر كار وقت گیر و پر زحمتی است ولی به كمك بازشناسی گفتار به یادگیری زبانهای مختلف احتیاجی نخواهد بود و می‌توان با یك دستگاه كوچك با فردی كه با زبان دیگری صحبت می‌كند، صحبت نمود. یك كامپیوتر كوچك صدای شما را گرفته و به تعدادی از كلمات تبدیل می‌نماید. سپس این كلمات به زبان دیگر ترجمه شده و در نهایت با زبان جدید گفته می‌شوند. دو مرحلة آخر این سیستم جزو مسایل انجام شده گفتار هستند و با كامل نمودن مسئله بازشناسی گفتار بدون دانستن زبان‌های دیگر به آنها تكلم نمود.

شكل 1-2 نشان دهنده ارتباط دو فرد با زبان‌های مختلف است. یكی از كاربردهای دیگر بازشناسی گفتار، برقراری ارتباط با كامپیوتر است. همان گونه كه به انسانهای دیگر دسترس می‌دهید، به كامپیوتر هم می‌توان دستور داد و با آن صحبت كرد. یا حتی می‌توانید از او بخواهید كاری برایتان انجام دهد.

حتی با كمك بازشناسی گفتار می‌توان به انسانهای نابینا و ناشنوا كمك كرد. به طور مثال نابینایان می‌توانند با صحبت كردن و دادن دستور به كامپیوتر با آن كار كنند.

از دستاوردهای جدید بازشناسی گفتار و پردازش مدت كاربرد آن در آموزش‌های زبان دوم می‌باشد. بدین ترتیب كه با ایجاد سیستمی‌كه قابلیت آشكارسازی خطای تلفظ بین لهجه‌های زبان اصلی و لهجة یك فردی كه به زبان دوم فرد سخن می‌گوید، وی را در یادگیری و تصحیح تلفظ و لهجه آن زبان كمك نمی‌كنند.

بازشناسی گفتار می‌تواند برای شرایط مختلفی انجام گیرد. هر كدام از این شرایط می‌توانند باعث مشكل شدن، پیچیدگی بازشناسی شوند. یكی از این شرایط، وابسته بودن بازشناسی به یك گوینده یا مستقل بودن آن از گوینده است. مستقل بودن از گوینده به معنای آن است كه بتوان كار بازشناسی را برای هر فرد انجام داد. از دیگر شرایط بازشناسی گسسته یا پیوسته بودن گفتار است. راحتی بازشناسی گفتار گسسته، داشتن ابتدا و انتهای عصر كلمه یا اساساً خود كلمه یا همان واحد آوایی می‌باشد. همچنین از دیگر شرایطی كه در بازشناسی مطرح است،تعداد واژگان می‌باشد. یعنی بازشناسی گفتار برای چه تعداد كلمه‌ای صورت می‌پذیرد.

هدف از انجام پروژة فوق در ابتدا بازشناسی كلمات گسسته قرانی و در مرحلة دوم ارزیابی نحوة بیان و تلفظ كلمات قرآنی می‌باشد. از آنجائیكه برای مقایسه بین كلمة ادا شده توسط كاربر و صدای استاد باید یك سیستم بهینه وجود داشته باشد. در مرحلة اول سعی می‌كنیم، سیستم را به حالت بهینه خود برسانیم و سپس پارامترهای این سیستم جهت انجام مرحلة دوم استفاده كنیم.

اما چون در هنگام ارزیابی نحوة‌ بیان كلمه قرآنی، كلمه مورد نظر از قبل مشخص است، بناباین در مرحله دوم احتیاجی به بازشناسی گفتار نمی‌باشد.

 

در بخش اول برای بهتر درك كردن مفهوم بازشناسی به بررسی سیستم تولید صوت و شنوایی انسان می‌پردازیم. سپس وارد مفاهیم بازشناسی گفتار خواهیم شد. در این مرحله روشهای جداسازی سیگنال زمینه از روی سیگنال صحبت مورد بررسی قرار می‌گیرد. سپس نحوة استخراج ماتری ضرائب كپستروم و در نهایت بازشناسی گفتار بوسیلة الگوریتم انحراف زمانی پویا (DTU) و مدل مخفی ماركوف مورد بررسی قرار می‌گیرد.

پس از آشنایی با ابزارهای بازشناسی گفتار، نحوة پیاده سازی الگوریتم‌های فوق ذكر خواهد شد. بعد از راه‌اندازی سیستم بازشناسی گفتار كلمات مقطع، بوسیلة الگوریتم DTN مشاهده شد نرخ بازشناسی گفتار پائینی است و حدود %47 می‌باشد. از این رو در جهت بهبود پارامترهای سیستم و بهینه كردن آن در مراحل بازشناسی و پارامترهای آن تغییراتی داده شد، كه به ذكر آنها پرداخته خواهد شد.

پس از بهینه كردن پارامترهای سیستم بازشناسی گفتار و رسانیدن نرخ بازشناسی گفتار به 99% برای 20 كلمه قرآنی الگوریتم‌های ارزیابی نحوة بیان بوسیلة روش DTA بحث خواهد شد.

در بخش انتهایی به بررسی مدل مخفی ماركوف خواهیم پرداخت. سپس مراحل پیاده سازی الگوریتم فوق بوسیلة نرم افزار و نكات عملی آن گفته خواهد شد. در نهایت سیستم بازشناسی گفتار كلمات مقطع قرآنی و نحوة پیاده سازی آن مورد بررسی قرار خواهد گرفت و در مرحلة بعدی الگوریتم ارزیابی نحوة بیان بوسیلة ذكر خواهد شد.

تغییر محیط اكوستیكی روی نتیجه بازشناسی اثر خواهد گذاشت. از آنجائیكه سیستم فوق برای نمونه‌های آزمایشگاهی آموزش داده شده با تغییر محیط اكوستیكی مطمئناً نتایج بازشناسی تغییر خواهد كرد و نمونه‌های واقعی دارای نوین میكروفن، محیط و همچنین برگشت صدا خواهند بود.

در انتها به بررسی سیستم‌های بهبود گفتار خواهیم پرداخت، هدف از این بخش حذف هزینه ورودی از طریق میكروفن و از بین بردن تأثیرهای محیط بر روی سیگنال صدا می‌باشد.

در این بخش به دو روش اشاره خواهیم: ابتدا روش spectral subtraction

كه به میزان یك روش عمدی برای حذف نویز می‌رود ذكر خواهد شد.

سپس به معرفی یك الگوریتم جدید در حذف نویز میكروفن خواهیم پرداخت.

مدل اعضای صوتی انسان

در شكل (1-2) یك دیاگرام شماتیك از مكانیزم تولید صحبت انسان نشان داده شده است. هنگام صحبت معمولی،‌ قفسه سین با فشار وارد كردن به ششها باعث می‌شود كه هوای فشرده از ششها از طریق حنجره بیرون رانده شود. تارهای صوتی كه درست در پشت غدة تیروئید قرار گرفته‌اند،‌ اگر تحت تنش قرار گیرند، با عبور هوا مرتعش می‌شوند و بدین ترتیب هوا نیز متناسب با فركانس ارتعاش تارهای صوتی مرتعش شده و در این حالت حروف صدادار تولید می‌گردند.

اگر تارهای صوتی از هم جدا شوند، جریان هوا از درون فاصلة بین تارهای صوتی عبور می‌كند و تأثیر آن ایجاد نمی‌شود. جریان هوا سپس از فضای حلق عبور نموده و بسته به موقعیت دریچة تنظیم عبور هوا از دهان یا بینی از فضای این دو عبور می‌نماید. جریان هوا از طریق دهان و بینی یا هر دو مشتركاً به بیرون داده می‌شود و هنگام صحبت این كاملاً قابل حس كردن است.

در حالت تولید حرف بی صدا مانند «س» یا «پ» تارهای صوتی در هم باز می‌شوند و یكی از دو حالت زیر غالب است. یا یك جریان مغشوش هوا تولید می‌شود، هنگامی‌كه هوا از درون فضای نیمه بسته باریك در نقطه‌ای از اعضای صوتی عبور می‌كند (مانری) و یا یك تحریك گذری مختصر بدنبال ایجاد فشار پشت یك نقطة كاملاً بسته در اعضای صوتی انسان اتفاق می‌افتد (مانند p).

وقتیكه جز جز كننده‌های مختلف مانند زبان، لبها، آرواره‌ها و پردة تفكیك بینی و دهان در حین صحبت مدام حالتشان عوض می‌شود. شكل قسمتهای مختلف فضای داخل ناخیه صوتی تغییر می‌كند. ناحیه صوتی از حنجره تا لبها مانند یك حفرة تشدید كننده عمل می‌كند كه فركانسهای معینی را تقویت و بقیه فركانسها را تضعیف می‌نماید. اعضای صوتی انسان مثل یك لولة صوتی غیر یكنواخت است كه از تارهای صوتی تا لبها ادامه دارد و طول آن در افراد مانع حدود cm17 می‌باشد. بنابراین اولین فركانس تشدید آن در فركانس زیر اتفاق می‌افتد.

سطح مقطع غیر یكنواخت این لوله – مقدار زیادی متكی به وضعیت جز جز كننده‌ها است. و از صفر تا نزدیك cm20 متغیر است.

عضو صوتی مدهای تشدید یعنی از ارتعاش را داراست كه فرمنت نامیده می‌شود كه به مقدار زیادی به موقعیت دقیق جزءجزءكننده‌ها بستگی دارد.

شكل (2-2) تصویر شماتیك نیم رخ ناحیه صوتی را برای چند حرف صدادار نشان داده است و مقادیر نمونه فركانسها نیز ذیل آن برای سه فرمنت اول بر حسب Hz داده شده است.

شكل 3-2 مشخصه‌های فركانسی انتقالی این حروف را نشان می‌دهد، وضعیت تشدیدها به روشنی در این منحنی‌ها دیده می‌شود. خوبست كه بدانیم بطور قابل ملاحظه‌ای در فهم صحبتها، فقط 3 فرمنت اول در تعیین صدایی كه شنیده می‌شود مهم هستند. اگرچه برای تولید اصوات با كیفیت قابل قبول و بهتر فرمنت‌های بالا نیز مورد نیاز می‌باشد.

شكل موج صدای تولید شده بوسیلة حنجرة در هر حال یك سینوسی معمولی نیست. اگر اینطور بود ناحیه صوتی تشدید كننده، در خروجی فقط یك سیگنال سینوس می‌داد كه بسته به میزان دور یا نزدیك بودن آن به فركانس تشدید، تقویت یا تضعیف شده بود.

حنجره دارای دو لبه چین خوردة پوستی بنام تارهای صوتی است كه در هر سیكل از پریود فركانس گام یكبار از هم باز شده و دوباره بهم می‌آید. فركانس هیچ در مكالكات انسان مذكر از 50 الی 250 هرتز متغیر است كه بطور متوسط حدود Hz100است. برای انسان مؤنث این فركانس در رنج بالاتر تا حدود Hz500 قرار دارد. در آواز خواندن این فركانس بالاتر نیز هست. بعضی آوازخوانهای اپرا، فركانس گام خود را تا Hz1000 می‌توانند برسانند.

حركت نوسانی تارهای صوتی شكل موجی تولید می‌كند كه می‌توان آن را با یك پالس مثلثی تقریب زد. این شكل موج دارای طیف فركانسی غنی است كه با شیب db/ocdao12 می‌افتد و همة‌‌هارمونیكها نیز تحت تأثیر نواحی تشدید اعضای صوتی قرار می‌گیرند. (شكل 4-2)

شكل 4-2 بالائی مربوط است به مدل فیلتر منبع كه مشخصات فیلتر و طیف است. شكل سمت راست تحریك دهانة حنجره در گفتار طبیعی است و بالاخره شكل سمت چپ تقویت در تحریك دهانه حنجره است.

ناحیه صوتی وقتی كه به وسیلة یك شكل موج با طیف‌هارمونیكی گسترده قرار می‌گیرد. نقاط موجی در طیف انرژی شكل موج مكالمات تولید می‌كند كه همان فرمنت‌ها هستند. پائین ترین فرمنت كه اولین فرمنت نامیده می‌بود از حدود Hz.200 تا Hz100 در حین صحبت متغیر است. و مقدار دقیق آن متكی به ابعاد ناحیه صوتی می‌باشد.

فرمنت دوم از حدود Hz500 تا Hz9500 متغیر است و فرمنت سوم از حدود Hz1500 تا Hz3500. البته گفتار یك پدیدة استاتیك و ثابت نیست. مدل لولة صوتی می‌تواند نمایشگر طیف گفتار در مدتی كه یك حرف صدادار بطور ممتد كشیده می‌شود و دهان در حالت ثابت باقی می‌ماند (مانند آآ‌آ) باشد. اما در گفتار واقعی زبان و لبها در تحریك دائم هستند و شكل ناحیه صوتی را مرتباً تغییر می‌دهند و نتیجتاً موقعیت فركانسهای تشدید را عوض می‌كنند. این مشابه یك لوله صوتی است كه بطور مداوم از قسمتهای مختلف فشرده و منبسط می‌شود.

بعنوان مثال در هنگام بیان كلمة «میز» احساس می‌كنیم كه چطور زبانتان به سقف دهان نزدیك می‌شود و باعث ایجاد یك حالت عبوری نیمه بسته در نزدیك جلوی حفرة صوتی می‌شود.

در طیف یك حرف صدادار كه بطور مداوم ادامه داده شود، بصورت مداوم ادامه داده شود، بصورت یك طیف انرژی ثابت می‌آید. اما باید توجه داشت كه منظور از حروف صدادار در اینجا با آنچه معمولاً تصور می‌شود متفاوت است. بگوئید «I» و ببینید زبان هنگام بیان به آهستگی تغییر موقعیت می‌دهد. از نظر تكنیكی این تها یك حرف صدادار نیست و یك لغزش بین دو موقعیت مربوط به دو حرف صدادار است.

تفاوتهای شنوایی اصلی بین حروف صدادار مختلف و فركانسهای دو فرمنت اول آنهاست. دیدیم كه صحبت كردن، محدود كردن صوت است بعد از آنكه بوسیلة نوسانات در حنجره تولید شده است. وقتی كه با حالت نجوا و زمزمه صحبت می‌كنیم، تارهای صوتی در حنجره كمی‌از هم جدا نگاه داشته شده‌اند و هوای عبوری از آنها بصورت مغشوش در می‌آید و باعث تحریك حفرة تشدید كننده (اعضای صوتی) بوسیلة یك نویز می‌گردد.

فرمنتها در اینجا نیز حضور دارند و روی نویز سوار شده‌اند. برای حروف صدادار ریشة حروف در تارهای صوتی است و صدا حاوی فرت‌های شبه پریودیك با باند عریض است كه توسط مرتعش شدن تارهای صوتی ایجاد گردیده‌اند.

برای حروف بی صدا مانند «س» صدا در نقطه نیمه بسته تحت فشار در عضو صوتی قرار دارد و شامل جریان هوای شبه رندوم مغشوش می‌باشد. برای حروف بی صدا مانند p (مثل pop) ریشة حرف در نقطه مسدود قرار دارد و بوسیلة‌ آزاد شدن هوای فشردیكه پشت نقطة كاملاً مسدود ایجاد گردیده است، تولید می‌گردد. از نوع اخیر كه صداهای تنفسی نامیده می‌شود، حرف H مثل كلمه Hello را نیز می‌توان ذكر نمود. بدین ترتیب حروف مكالمات را به 3 دسته می‌توان تقسیم نمود:

1- حروف صدادار

2- حروف بی صدا سایشی مثل س ر ش ف

3- حروف بی صدای تنفسی هـ، پ

تولید حروف بی صدا از نوع سایشی نیز میسر است كه مثلاً حروف ز ژ – و كه آنها را صدادار سایشی می‌نامیم. نمونة حروف بی صدا سایشی س – ش – ف هستند.

2-2 مدل منبع – فیلتر گفتار

فرض اساسی در تقریباً تمامی‌سیستمهای پردازش گفتار این است كه منبع تحریك و سیستم اعضای صوتی مستقل از هم هستند. این موضوع به ما اجازه می‌دهد كه در مورد تابع تبدیل عضو صوتی بحث كنیم و این امكان را می‌دهد كه این سیستم را با هر منبع ممكن دیگر تحریك نمائیم.

فرض فوق در مورد اكثر حالات مورد نظر ما به خوبی معتبر می‌باشد. البته حالاتی نیز وجود دارد كه فرض فوق معتبر نمی‌باشد و مدل اساسی می‌شكند (مانند حرف p در po). برای بیشتر قسمتها ما معتبر بودن آن را فرض می‌نمائیم. بر این اساس یك مدل دیجیتالی ساده تولید گفتار را در شكل (5-2) مشاهده می‌كنیم.

منابع تحریك عبارتند از یك مولد پالس كه فركانس آن همان فركانس گام می‌باشد و یك مولد نویز رندوم.

مولد پالس در هر تعداد از نمونه و مرتبط با شروع عبور یك حجم از هوا از تارهای صوتی، یك پالس تولید می‌كند كه طول آن متناسب با پریود گام می‌باشد. خروجی نویز رندوم مشابه اغتشاش شبه رندوم برار حروف بی صدا می‌باشد. هر كدام یا هر دو این منابع ممكن است بعنتوان ورودی برای یك فیلتر دیجیتال خطی و متغیر با زبان بكار روند. این فیلتر، عضو صوتی (ناحیه صوتی) را مشابه سازی می‌نماید و ندا ضرایب فیلتر تعیین كننده ناحیه صوتی بعنوان یك تابع متغیر نسبت به زمان در حین گفتار می‌باشند.

بطور متوسط در هر 10 میلی ثانیه یكبار، ضرایب فیلتر عوض می‌شوند كه نشانگر مشخصات ناحیه صوتی جدید هستند، كنترل بهره

 

فصل دوم

Speech analysist

مقدمه:

در این بخش در مورد تجزیه و تحلیل سیگنال صوت بحث خواهد شد و مراحل پردازش روی سیگنال صحبت جهت آمادگی آن برای بازشناسی مورد بررسی قرار خواهد گرفت.

در این بخش اطلاعاتی در مورد نحوة فریم بندی، اعمال پنجره، عملیات جداسازی سیگنال صحبت از روی زمینه، voice Decision ، فركانس فرمنت و ضرایب LPC ، كپستروم بحث خواهد شد.

فریم بندی سیگنال صحبت

دنبال نمونه‌های از سیگنال صحبت در شكل نشان داده شده است. همان طور كه از شكل پیدا است، خواص سیگنال با گذشت زمان تغعیر می‌كند. مثلاً در بعشی از زمانتها سیگنال واكه دار یا بی واكه است یا نقاط ماكزیمم دامنه بسیار تغییر می‌كند و همچنین در نقاطی كه سیگنال صحبت واكه دار است فركانس گام عوض می‌شود.

در تمام كارهای پردازش سیگنال فرض بر این است كه خواص و ویژگی سیگنال صورت در طول زمان به آرامی‌تغییر می‌كند.

در طول یك دوره كوتاه از زمان تقریباً ثابت است. با فرضهای فوق ما به روشی دست پیدا می‌كنیم كه در آن به پردازش زمان كوتاه یك قسمت از سیگنال صحبت می‌پردازد.

اغلب این بخش‌های كوتاه سیگنال صحبت كه به آن analysis frame نیز می‌گویند. با یكدیگر هم پوشانی دارند.

اگر بخواهیم یك بخش یا قسمت از سیگنال صحبت را نشان بدهیم بصورت ریاضی به فرم زیر می‌باشد.

 

كه در آن m طول فریم می‌باشد.

برای بدست آوردن N ، نمونه فدیك سیگنال صحبت باید آن را فریم بندی كنیم.

اما برای از بین بردن تأثیر لبه‌ها باید از پنجره استفاده نمود. استفاده از پنجره دو مزیت دارد.

1- پنجره با تضعیف سیگنال در ابتدا و انتهای پنجره اثر تغییر ناگهانی دامنه را در ابتدا و انتهای پنجره یا فریم كاهش می‌دهد.

2- با ضرب كردن پنجره در یك سیگنال صحبت در زمان، موجب ایجاد كانولوتن طیف پنجره و سیگنال صحبت در محور فركانس خواهیم شد. در حقیقت ما با این یك عمل Weignted moving avarage در محور فركانس انجام داده ایم.

این كار باعث از بین رفتن اعوجاج حاصل از فریم بندی سیگنال صحبت می‌شود.

پنجره بكار برده شده باید دارای دو خاصیت باشد: اول دقت فركانسی بالا یعنی، robe اصلی بسیار باریك و كوتاه باشد. 2- فركانس كوچك نسبت به سایر مؤلفه‌های طیف ایجاد شده بوسیلة كانولوتن. به عبارت دیگر تضعیف بسیار زیاد درrobe اصلی.

پنجره Hamming دارای خاصیت‌های فوق بوده

با معلوم كردن میزان هم پوشانی و طول پنجرة Haming می‌توان سیگنال صحبت را به بخش‌هایی به طول مساوی تقسیم نمود.

 

 

فیلتر پیش تأكید

ممكن است محدودة دینامیك طیف صحبت بسیار وسیع باشد. این باعث می‌شود كه در هنگام محاسبة ماتریس مشخصه سیگنال دچار مشكل شویم و همچنین این فیلتر پیش تأكید باعث یكنواخت تر كردن طیف فركانسی خواهد شد. برای این فیلتر پیش تأكید از یك فیلتر FIR درجة اول استفاده می‌كنیم.

 

 

می‌توان مقدار بهینه را بدست آورد ولی بسته به گوینده‌های مختلف فرق می‌كند ولی مقدار آن زیاد در نتایج تأثیر ندارد.

جداسازی سیگنال صحبت از روی سیگنال زمینه

شكل اساسی در پردازش صوت، تشخیص سیگنال صحبت از سیگنال نویز زمینه می‌باشد. از این مسأله اغلب بعنوان مسأله تشخیص ابتدا و انتهای صوت نام برده می‌شود. بوسیله تشخیص درست ابتدا و انتهای یك سیگنال صحبت، هم میزان پردازش سیگنال پائین می‌آید،‌ هم نرخ بازشناسی بالا می‌رود.

الگوریتم‌های مختلفی برای تشخیص و جداسازی سیگنال صحبت از روی سیگنال زمینه وجود دارند. در این پروژه دو روش و پیاده سازی شده است. در روش اول از پارامترهای میزان عبور از صفر و انرژی هر فریم برای پیدا كردن ابتدا و انتهای سیگنال صحبت استفاده می‌شود.

این الگوریتم به طور قابل ملاحظه‌ای می‌تواند در محیطهای اكوستیكی كه دارای سیگنال به نویز 30d هستند. با دقت بالا كار كند. الگوریتم اول برای گوینده‌های مختلف و شرایط مختلف، قسمت شد و نتایج خوبی بدست آمد.

الگوریتم دوم تقریباً شبیه الگوریتم اول است، و فقط كمی‌تفاوت با آن در نحوة استفاده از پارامتر انرژی دارد.

الگوریتم دوم نیز از پارامترهای انرژی و استفاده می‌كند.

برای دستیابی به یك الگوریتم كه بتواند سیگنال صوت را غیر از صوت جدا كند،‌ ابتدا لازم است محیط صوتی را كه در آن صدا ضبط شده است مشخص كنیم، عموماً در این پروژه‌ها دارای دو نوع محیط صوتی می‌باشیم. در حالت اول صدای كاربرد در یك محیط آزمایشگاهی بدون حضور، هیچ نیز اكوستیك ضبط شده است. در حالت دوم، صدای كاربرد بوسیلة یك میكروفن معمولی از طریق كامپیوتر ضبط می‌شود كه به همراه آن نویز وجود دارد.

در شكل (1) سكوت زمینه در هنگام ضبط صدا در محیط اول و دوم آورده شده است.

همان طور كه در شكلها دیده می‌شود،‌ سكوتی كه در محیط اكوستیك باشد، دارای یك مؤلفه فركانس پائین قبلی (با پریود ms8) می‌باشد. اما سكوتی كه در محیط معمولی و از طریق كامپیوتر ضبط شده دارای یك طیف وسیعی از فركانسها می‌باشد.

شكل (2) طیف فركانسی این دو سكوت زمینه را نشان می‌دهد.

 

 

متن کامل را می توانید دانلود کنید چون فقط تکه هایی از متن این پایان نامه در این صفحه درج شده است(به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

همراه با تمام ضمائم با فرمت ورد که قابل ویرایش و کپی کردن می باشند

موجود است

دانلود پایان نامه با فرمت ورد

با فرمت ورد

 

دانلود متن کامل این پایان نامه به همراه تمام ضمائم (پیوست ها) : پایان نامه صحت گفتار

فایل ها برای اینکه حجم آنها پایینتر شود وراحتتر دانلود شوند با فرمت rar فشرده شده اند

برای دریافت پسورد فایل اینجا کلیک کنید.

 

 

 

مطالب مشابه را هم ببینید

141985615752731

فایل مورد نظر خودتان را پیدا نکردید ؟ نگران نباشید . این صفحه را نبندید ! سایت ما حاوی حجم عظیمی از پایان نامه ، تحقیق ، پروژه و مقالات دانشگاهی در رشته های مختلف است. مطالب مشابه را هم ببینید یا اینکه برای یافتن فایل مورد نظر کافیست از قسمت جستجو استفاده کنید. یا از منوی بالای سایت رشته مورد نظر خود را انتخاب کنید و همه فایل های رشته خودتان را ببینید فروش آرشیو پایان نامه روی دی وی دی

aca@

academicbooks@

دانلود متن کامل تحقیق درباره ازدواج 69 صفحه
دانلود کامل پایان نامه کارشناسی درباره نقاشان مشهور جهان
دانلود پایان نامه کارشناسی با موضوع رنگرزي و چاپ و تكميل
دانلود پایان نامه:مديريت سازماني براي رقابت و فروش كالا
دانلود پایان نامه:حجم نمونه و جامعة آماري