PDA

View Full Version : Sound Processing



Mahdi_20
پنج شنبه 30 بهمن 1382, 21:01 عصر
با عرض سلام

من الگوریتمی برای تبدیل صدا به متن میخوام .
میدونم که مشکله اما چه میشه کرد وقتی یه موضوع میزنه به کلم داغون میشم .
باید ازش سر در بیارم . اگه انگلیسی هم بود اشکالی نداره .
در ضمن اگه کسی این کار رو انجام داده و میتونه راهنماییم کنه لطف کنه در این مورد اطلاعات بده .

خلاصه کنم , کمکی از دستتون بر میاد لطفا دریغ نکنید .
__________________________________________________ __

[code]
if (I understand)
I am very happy
else
[code/]

seyedof
پنج شنبه 30 بهمن 1382, 23:46 عصر
سلام
این چیزی که شما میخواهید مبحث پیچیده ای است و بهش Speech Recognition یعنی تشخیص گفتار میگن. برای انگلیسیش هست و برای فارسی هم شنیدم توی ایران دارن روش کار میکنند. ولی به عنوان یک راه حل سریع برای نوع انگلیسی آن میتوانید از Microsoft Speech SDK استفاده کنید. راهنماش هم توی MSDN هست.

ممنون
سیداف

پنج شنبه 30 بهمن 1382, 23:53 عصر
باید در زمینه ی digital signal processing یکم کار کنی تا خوب بشه البته فکر کنم مایکروسافت هم یه کنترل هایی داشته باشه
در زمینه ی dsp میتونی از کتاب فروشی sal در میدان انقلاب دیدن کنی یه چند تایی انگلیسی داره
اما www.amazon.com لیستس از بهترین هاشو بهت میده
با تشکر

Kambiz
جمعه 01 اسفند 1382, 02:49 صبح
تشخیص گفتار (Speech Recognition) به دو گروه تقسیم میشه:

دستورات گفتاری (Voice Commands)
در این مورد متن دستورات به مترادف آوایی آنها تبدیل میشه و بعد گفتار با آواهای این دستورات مقایسه می‌شه و اون دستوری که احتمال برابری آوای اون با گفتار بیشتر هست انتخاب می‌شه.
دیکته (Direct Dictation)
در این یکی کار به راحتی قبل نیست چون تعداد کلماتی که آوایی برابر یا مشابه گفتار دارند زیاده. برای رفع این مشکل٬ در این روش از ساختار گرامری زبان و همچنین موضوعی که گفتار در آن مبحث است (مثل پزشکی٬ حقوق٬ عمومی٬ ...) کمک می‌گیرند. برای دیکته نیاز به این هست که برنامه به خصوصیات صوتی گوینده آشنا بشه و به همین منظور گوینده قبل از شروع استفاده از برنامه باید مدتی رو برای Training صرف کنه.برای تولید نرم‌افزار هر یک از دو گروه اشاره شده در بالا٬ همونجور که دوستان گفتند نیاز به دانش پردازش سیگنال، شناخت کامل زبان، و همچنین مقدار زیادی نمونه صدا از گروه‌های سنی مختلف مرد و زن که در حالات روحی مختلف رو بیان شده باشند، نیاز هست.

در حال حاضر تکنولوژی تشخیص گفتار چیز پنهانی نیست و شرکتهای زیادی در این زمینه فعالیت دارند. جهت اطلاع٬ بهترین نرم‌افزار تشخیص گفتار Dragon NaturallySpeaking هست که در ابتدا توسط شرکت L&H برای ویندوز 16 بیتی نوشته شد. دو سال پیش این شرکت برشکسته شد و شرکت ScanSoft برخی از لیسانسهای شرکت L&H از جمله تشخیص گفتار و متن به گفتار رو خرید.

پس فکر بازآفرینی چرخ رو از سرتون بیرون کنید. اگر می‌بینید برای زبان فارسی چنین نرم‌افزارهایی وجود نداره٬ تنها به دلیل نبودن بازار مناسب هست.

Mahdi_20
شنبه 02 اسفند 1382, 05:03 صبح
ممنون از دوستان
ولی من میخوام از این کار سر در بیارم . با این کار خیلی خوشحال میشم .
من برنامه مینویسم که به قول بعضی ها حال کنم .
نمیدونم چرا وقتی حرف از برنامه یا الگوریتم میزنم یکی میاد میگه بازار نداره .
براش پول نمیدن و..... :-x
من دوست دارم اینو بدونم ..
در مورد این کار میدونم دو را وجود داره یکی از راه صحیح و خطا و یکی هم از راه الگوریتم ی که برای این کار وجود داره .
من این الگوریتم رو میخواستم اگه میشه ...

بازم ممنون

B-Vedadian
شنبه 02 اسفند 1382, 08:49 صبح
سلام،

من منظور شما رو متوجه نمیشم. در مورد تشخیص گفتار که همونطور که دوستان گفتند حوزه های متفاوتی هست و در هر حوزه اولین و اساسی ترین بخش استخراج یک سری پارامتر (Feature extraction) از صوته. این پارامتر ها شامل ضرایب بسط کپستروم(Cepstrum Coefficients)، انرژی سیگنال صوتی در بازه های 20 میلی ثانیه و ضرایب اسپکتروم (Spectrum) صوتی، ضرایب پیشگویی خطی(Linear Prediction) و .. هستند. بعد از استخراج این پارامترها یک الگوریتم مناسب برای کاربرد انتخاب میشه که ممکنه شبکه های عصبی(Neural Networks) و یا پیاده سازی منطق فازی(Fuzzy Logic) باشه.

به عبارت دیگه الگویتم بخش اصلی تشخیص گفتار نیست، مهمترین مسأله همون پارامترهای استخراح شده از سیگنال صوتیه. بعدش دیگه تطبیق داده های بانک اطلاعاتی با نمونه های دریافت شده است که میشه الگوریتم.

در نهایت بگه بعد استخراج پارامترهای مذکور از یکسری آموزش (Training) که همون ضبط نمونه صدا و استخراج پارامتر از اونه از روی داده های بدست آمده یک مدل می سازند. الگوریتمهای کار با Hidden Markov Model خیلی رایج هستند.

Mahdi_20
شنبه 02 اسفند 1382, 15:10 عصر
بابا اگه مقاله ای یا چیز بذرد بخوری دارین .
ممنون میشم اگه برام معرفیش کنید .
در ضمن من اینو از استاد دانشگاه شنیدم که دو راه وجود داره :

1) که روش صحیح و خطا که چند صدا از افراد مختلف مثل
یه مرد پیر یه بچه یه نفر میانسال و... تهیه میشه و نقطه های اشتراک این چند صدا از فرمولی بدست میاد و باعث
تشخیص صدا میشه .که این راحتترین الگوریتم هست .

2) از یکسری فرمول انتگرالی و محاسبات پیچیده ای صدا تشخیص داده میشه .

لطف کنید مقاله ی خوب و به درد بخوری دارین برام معرفی کنید .
برای یادآوری همه آدرس Amazon رو میدونن اما کو پولش ... ما که نداریم . (:D) :roll: