PDA

View Full Version : اسکن هوشمند و تکنولوژی OCR



دلفی زاده
جمعه 02 آبان 1382, 14:54 عصر
اگر دوستان عزیز در باره الگوریتم استخراج متون از توسط اسکن نوشته اطلاعاتی دارند خوشحال مس شوم بنده را راهنمایی نمایند

SReza1
جمعه 02 آبان 1382, 15:59 عصر
من تا اونجا که میدونم ocr فارسی که اصلا نداریم ولی english داریم
در ضمن تکنینک اونها استفاده از شبکههای عصبی است که مثلا یک الگو رو به اونها میدند و تربیت میشه و الگوهای شبیه اونو میشناسه حالا نمدونم توضیح بیشتر میخوای یا نه؟

phantasm
جمعه 02 آبان 1382, 16:44 عصر
سلام

بله لطفا بیشتر توضیح بدید چون منم علاقمندم راجب به تکنیکهای ocr بیشتر بدونم.بقیه دوستان هم اگه چیزی میدونن بنویسن.در ضمن اگه سایتی یا منبعی راجع به این موضوع وجود داره معرفی کنید .

ممنون.

Mashatan
جمعه 02 آبان 1382, 18:05 عصر
من تا اونجا که میدونم ocr فارسی که اصلا نداریم ولی english داریم
در ضمن تکنینک اونها استفاده از شبکههای عصبی است که مثلا یک الگو رو به اونها میدند و تربیت میشه و الگوهای شبیه اونو میشناسه حالا نمدونم توضیح بیشتر میخوای یا نه؟

شناسا اولین برنامه OCR فارسی هست ! که خیلی وقت پیش اومد به بازار و الان چندتایی هستند که اسمشونو نمیدونم !

اینجا هم بحث خوبی درباره OCR شده
http://forum.persiantools.com/viewtopic.php?p=3987&highlight=
این برنامه نویس هم قصد داره OCR بنویسه میتونید ازش کمک بخواین
http://ama.persianblog.com/

پ.ن : داشتم Search میکردم ببینید چی پیدا کردم
http://www.refahweekly.com/computer/o810krd4.htm
اگه گفتید اسم کی رو نوشتن :wink:

SReza1
جمعه 02 آبان 1382, 19:02 عصر
اگه ocr فارسی میشناسی حتما اسمشو به منم بده !! :shock:

SReza1
جمعه 02 آبان 1382, 19:09 عصر
البته من که فکر نکنم ocr فارسی بدر نخوری وجود داشته باشه!! یعنی اینکه درست کار نمیکنه!! در ضمن آقا مهدی خودومونه که بابا!! آقای کرامتی در همه جا هست!!! :shock: :shock: :P

در خصوص تکنیکهای استفاده از OCR
به کمک شبکه‌های عصبی می شه این کارا رو انجام داد. شما برای مثلا کارکتر X یک الگو یا patern می سازید. بعد می آیید به شبکه‌ای که ساختید این الگو را تزریق میکنید. بعد اینم شبکه تربیت شده و وزن این کارکتر را به شما میدهد. بعد برای تمام کارکترها این کار را انجام میدهید و وزن تمام کارکترها بدست میآید که البته یکتا میباشد. حال اگر کاکتری وجود داشته باشد که کمی هم مثلا به شکل X باشد شبکه متوجه میشود که این کارکتر X است نه چیزه دیگه
و اما من گفتم که در مورد متون فارسی چیزی پیدا نمیشه! البته پیدا میشه ولی زیاد جالب نیست. مشکل حروف فارسی اولا دست خط های عجیب و غریب افراد و اینکه ما نستعلیق هم مینویسیم. و دیگر اینکه حروف نقطه دار. بهر حال در حوقع اسکن صفحات کتاب ممکن است نقطه‌ای در صفحه ظاهر بشه مثلا کنار کارکتر "ب" حالا به نظر شما این ب است یا ت شایدم پ و ...
در ضمن باید همه به یه شکل باشند. میبینی که خیلی سخته. ولی انگلسیی ها اینقدر حروف نقطه دار ندارند. حتی در خصوص کارکتر ک نیز مشکل شباهت زیاد با گ باعث میشه تا وزن این دو کارکتر نزدیک به هم شه و مشکلات خاصه خودشو داره
من تا حالا ندیدیم یه ocr فارسی درست حسابی داشته باشیم فکر کنم اگه هم گیر بیاد گرونه :shock: :shock: :( :roll: