سوال: نحوه ی کار Speech Recognition [بایگانی]

View Full Version : سوال: نحوه ی کار Speech Recognition

ali-a2

سه شنبه 24 مرداد 1391, 14:26 عصر

با سلام !

میخواستم بپرسم نحوه ی کار Speech Recognition ویندوز یا کلا برنامه هایی که صدا رو تشخیص میدن چجوریه ؟

با تشکر !

arenaw

سه شنبه 24 مرداد 1391, 23:45 عصر

سلام
قبلا بحث شده
اما خب شما مثلا با میکروفون صداتو ضبط کن، یه بار حرف خ رو بگو یه بار مثلا حرف ی
بعد این 2 تا صدا رو با برنامه هایی مثل adobe audition یا sound forge باز کن و سیگنال های (نمیدونم سیگنال رو درست گفتم؟) صداهات رو ببین. (یه عکسه که مثل نوار قلب میمونه)
واسه تشخیص صدا هم شما اگه سیگنال همه حرفها رو داشته باشی، وقتی میخوای حرف رو تشخیص بدی، کافیه با اونا مقایسه کنی و ببینی به کدوم صدا شبیه تره
البته اینی که من گفتم ساده ترین و مبتدی ترین حالت بود

m.4.r.m

چهارشنبه 25 مرداد 1391, 09:10 صبح

اگه به صورت حرفه ای میخوای کار کن باید با هوش مصنوعی و یک برنامه نویسی حرفه ای کار کنی نه اگه می خوای یه آموزش ساده داشته باشی که بچه ها در قسمت قبلی توصیح دادن خیلی هم بحث شده می تونی جست و جو کنی و پیدا کنی

ali-a2

چهارشنبه 25 مرداد 1391, 14:48 عصر

ممنون !

جناب arenaw نحوه ی مقایسه چجوریه ؟

arenaw

پنج شنبه 26 مرداد 1391, 01:46 صبح

ممنون !

جناب arenaw نحوه ی مقایسه چجوریه ؟
خب این سیگنالهایی که من منظورمه به صورت تصویر هستند (بکگراند مشکی و یه نوار به رنگ سفید)
بعد دوتا عکس رو پیکسل به پیکسل با هم مقایسه میکنی و هرجا هر دو عکس نقطه سفید داشت، اون رو به عنوان نقطه مشترک حساب میکنی
عکس جدید با هر کدوم از سیگنال هایی که داریم نقطه مشترک بیشتری داشت، تشخیص میدیم که احتمالا حرف اونه
البته هر دو صدا باید قبل مقایسه normalize بشن (اگه قدرت صدا کم بود، زیاد بشه و بر عکس)

Mr'Jamshidy

شنبه 28 مرداد 1391, 00:35 صبح

خب این سیگنالهایی که من منظورمه به صورت تصویر هستند (بکگراند مشکی و یه نوار به رنگ سفید)
بعد دوتا عکس رو پیکسل به پیکسل با هم مقایسه میکنی و هرجا هر دو عکس نقطه سفید داشت، اون رو به عنوان نقطه مشترک حساب میکنی
عکس جدید با هر کدوم از سیگنال هایی که داریم نقطه مشترک بیشتری داشت، تشخیص میدیم که احتمالا حرف اونه
البته هر دو صدا باید قبل مقایسه normalize بشن (اگه قدرت صدا کم بود، زیاد بشه و بر عکس)

روش جالبیه اما چرا عکس؟
چرا پیکسل به پیکسل؟
میدونی برای کار از طریق این روش اگر کاربر 10 ثانیه حرف بزنه چقدر زمان برای مقایسه لازم هست؟
و اگر یک کاربر دیگه با یک صدای دیگه این کار رو انجام بده یعنی جواب درستی وجود نداره؟

ببین دوست من
به نظر من (البته من زیاد روی سگنال ها کار نکردم) اما باید دسته بندی باشن (صدای زیر، صدای بم و ...)

شما اول باید صدای ده نفر که به صورت یکسان مثلا کلمه 'سلام' رو میگن بررسی کنی با نرم افزار هایی مثل Sound Frog

بعد قسمت هایی که مربوط به تلفظ هست رو پیدا کنی

اگر این کار رو بتونی انجام بدی بهت قول میدم 90% تلفظ ها رو بصورت 100% میتونی تشخیص بدی

چون اگر با نرم افزار هایی مثل Speech ویندوز کار کرده باشی (نرم افزار ها تبدیل نوشتار به گفتار) یکی از تنظیماتش پیچ صدا هست که با تغییر اون صدای گوینده کلی تغییر میکنه (پس این یعنی گویش ها در صدا های متفاوت نقاط مشترکی داره) که شما میتونی از این قابلیت استفاده کنی

موفق باشید

arenaw

یک شنبه 29 مرداد 1391, 06:28 صبح

روش جالبیه اما چرا عکس؟
چرا پیکسل به پیکسل؟
میدونی برای کار از طریق این روش اگر کاربر 10 ثانیه حرف بزنه چقدر زمان برای مقایسه لازم هست؟
و اگر یک کاربر دیگه با یک صدای دیگه این کار رو انجام بده یعنی جواب درستی وجود نداره؟

ببین دوست من
به نظر من (البته من زیاد روی سگنال ها کار نکردم) اما باید دسته بندی باشن (صدای زیر، صدای بم و ...)

شما اول باید صدای ده نفر که به صورت یکسان مثلا کلمه 'سلام' رو میگن بررسی کنی با نرم افزار هایی مثل Sound Frog

بعد قسمت هایی که مربوط به تلفظ هست رو پیدا کنی

اگر این کار رو بتونی انجام بدی بهت قول میدم 90% تلفظ ها رو بصورت 100% میتونی تشخیص بدی

چون اگر با نرم افزار هایی مثل Speech ویندوز کار کرده باشی (نرم افزار ها تبدیل نوشتار به گفتار) یکی از تنظیماتش پیچ صدا هست که با تغییر اون صدای گوینده کلی تغییر میکنه (پس این یعنی گویش ها در صدا های متفاوت نقاط مشترکی داره) که شما میتونی از این قابلیت استفاده کنی

موفق باشید
من هم زیاد کار نکردم ولی کم و بیش کار تنظیم موسیقی انجام میدم
فک نمیکنم سیگنال به طور مثال کلمه ی "سلام" واسه یه آدم با صدای بم و یه آدم با صدای زیر فرق داشته باشه.
نه که یکی باشن ولی اگه مقدار بیس صدای اون آدم با صدای بم رو کم کنی در نهایت سیگنالش هم مثل اون سیگنالی میشه که از قبل واسه مقایسه ضبط کردیم
میزان بیس و تریبل صدا هم از طریق اکولایزر مشخص میشه و قابل تنظیمه.
ولی به نظر من اگه منظور شما رو درست فهمیده باشم روش شما خوب نیست.
به جز حروف صدا دار بقیه حرف ها موقع تلفظ سیگنال رو بالا میبرن :
مثلا سیگنال سلام باید یه چنین چیزی بشه: (از راست به چپ)
\/__\/_
که این نقاط اوجش مربوط به حرف س و ل میشه
و ما از همین طریق میتونیم جمله ای که توسط کاربر ضبط شده رو تیکه تیکه کنیم و مقایسمونو انجام بدیم
م هم که آخره کلمس و تشخیصش سخته هنوز راهی به ذهنم نمیرسه
را جع به اون روش مقایسه من (پیکسل به پیکسل) شاید این پیکسل به پیکسل بودنش باعث بشه طول بکشه ولی در کل پیدا کردن نقاط مشترک رنگ سفیدشون منظور اصلی من بود (حالا با هر روشی)

Mr'Jamshidy

یک شنبه 29 مرداد 1391, 17:42 عصر

من هم زیاد کار نکردم ولی کم و بیش کار تنظیم موسیقی انجام میدم
فک نمیکنم سیگنال به طور مثال کلمه ی "سلام" واسه یه آدم با صدای بم و یه آدم با صدای زیر فرق داشته باشه.
نه که یکی باشن ولی اگه مقدار بیس صدای اون آدم با صدای بم رو کم کنی در نهایت سیگنالش هم مثل اون سیگنالی میشه که از قبل واسه مقایسه ضبط کردیم
میزان بیس و تریبل صدا هم از طریق اکولایزر مشخص میشه و قابل تنظیمه.
ولی به نظر من اگه منظور شما رو درست فهمیده باشم روش شما خوب نیست.
به جز حروف صدا دار بقیه حرف ها موقع تلفظ سیگنال رو بالا میبرن :
مثلا سیگنال سلام باید یه چنین چیزی بشه: (از راست به چپ)
\/__\/_
که این نقاط اوجش مربوط به حرف س و ل میشه
و ما از همین طریق میتونیم جمله ای که توسط کاربر ضبط شده رو تیکه تیکه کنیم و مقایسمونو انجام بدیم
م هم که آخره کلمس و تشخیصش سخته هنوز راهی به ذهنم نمیرسه
را جع به اون روش مقایسه من (پیکسل به پیکسل) شاید این پیکسل به پیکسل بودنش باعث بشه طول بکشه ولی در کل پیدا کردن نقاط مشترک رنگ سفیدشون منظور اصلی من بود (حالا با هر روشی)

به نظر من باید حروف یک نقطه مشترک داشته باشه

اگر اینطور نباشه مثلا Speech Reconz ویندوز پس باید نمونه صدای همه آدم ها رو داشته باشه درسته؟

این مساله رو هم تا یک نفر که این کاره باشه بررسی نکنه مشخص نمیشه

مثلا شما که روی موسیقی کار میکردی میدونی کدوم قسمت سیگنال مربوط به چی هست من حتی اسماش هم نمیدونم چه برسه به ... :چشمک:

ali-a2

یک شنبه 29 مرداد 1391, 19:22 عصر

جناب جمشیدی درست میگن !

خوب الان دقیقا مقایسه به چه صورته پس ؟

arenaw

دوشنبه 30 مرداد 1391, 02:45 صبح

به نظر من باید حروف یک نقطه مشترک داشته باشه

اگر اینطور نباشه مثلا Speech Reconz ویندوز پس باید نمونه صدای همه آدم ها رو داشته باشه درسته؟

این مساله رو هم تا یک نفر که این کاره باشه بررسی نکنه مشخص نمیشه

مثلا شما که روی موسیقی کار میکردی میدونی کدوم قسمت سیگنال مربوط به چی هست من حتی اسماش هم نمیدونم چه برسه به ... :چشمک:
خب منم همینو میگم دیگه
میگم اون صدایی که واسه مقایسه تو برنامه هست یه صدای نرماله
حالا اگه میخواد صدای منو تشخیص بده که صدام بمه، میاد اول بیس صدای منو نرمال میکنه بعدا مقایسش میکنه با اون. تشخیص اینکه صدای من بمه یا زیر هم از طریق اکولایزر هستش.
بقیه چیزایی هم که گفتم مربوط به این بود که بیاد اون جمله ای که گفته میشه رو به حروف تجزیه کنه چون قرار نیست تمام کلمه ها تو بانک برنامه باشن، فقط صداهای ثابت + اَ اُ اِ ای او ...
البته به قول شما ما فعلا این کاره نیستیم نظر ندیم بهتره :بامزه:

Mr'Jamshidy

سه شنبه 31 مرداد 1391, 01:50 صبح

خب منم همینو میگم دیگه
میگم اون صدایی که واسه مقایسه تو برنامه هست یه صدای نرماله
حالا اگه میخواد صدای منو تشخیص بده که صدام بمه، میاد اول بیس صدای منو نرمال میکنه بعدا مقایسش میکنه با اون. تشخیص اینکه صدای من بمه یا زیر هم از طریق اکولایزر هستش.
بقیه چیزایی هم که گفتم مربوط به این بود که بیاد اون جمله ای که گفته میشه رو به حروف تجزیه کنه چون قرار نیست تمام کلمه ها تو بانک برنامه باشن، فقط صداهای ثابت + اَ اُ اِ ای او ...
البته به قول شما ما فعلا این کاره نیستیم نظر ندیم بهتره :بامزه:

اِ چرا دروغ میگی :بامزه:

من هم زیاد کار نکردم ولی کم و بیش کار تنظیم موسیقی انجام میدم
فک نمیکنم سیگنال به طور مثال کلمه ی "سلام" واسه یه آدم با صدای بم و یه آدم با صدای زیر فرق داشته باشه.
نه که یکی باشن ولی اگه مقدار بیس صدای اون آدم با صدای بم رو کم کنی در نهایت سیگنالش هم مثل اون سیگنالی میشه که از قبل واسه مقایسه ضبط کردیم
میزان بیس و تریبل صدا هم از طریق اکولایزر مشخص میشه و قابل تنظیمه.
ولی به نظر من اگه منظور شما رو درست فهمیده باشم روش شما خوب نیست.
به جز حروف صدا دار بقیه حرف ها موقع تلفظ سیگنال رو بالا میبرن :
مثلا سیگنال سلام باید یه چنین چیزی بشه: (از راست به چپ)
\/__\/_
که این نقاط اوجش مربوط به حرف س و ل میشه
و ما از همین طریق میتونیم جمله ای که توسط کاربر ضبط شده رو تیکه تیکه کنیم و مقایسمونو انجام بدیم
م هم که آخره کلمس و تشخیصش سخته هنوز راهی به ذهنم نمیرسه
را جع به اون روش مقایسه من (پیکسل به پیکسل) شاید این پیکسل به پیکسل بودنش باعث بشه طول بکشه ولی در کل پیدا کردن نقاط مشترک رنگ سفیدشون منظور اصلی من بود (حالا با هر روشی)

آخه چرا؟ :عصبانی++:
هان؟ چرا؟ :عصبانی++:

:بامزه:

موفق باشید