قیمت یک کپچا ریدر [بایگانی]

PDA

View Full Version : قیمت یک کپچا ریدر

1485159

شنبه 25 آبان 1392, 20:55 عصر

FastCode

شنبه 25 آبان 1392, 21:55 عصر

میتونی واحدش رو میلیون دلار بزاری و روی عددش صحبت کنی

1485159

شنبه 25 آبان 1392, 22:14 عصر

تو ایران هم مشتری داره؟

FastCode

یک شنبه 26 آبان 1392, 08:07 صبح

مشتری اولش دولته.میشه با چنین چیزی همه ی دنیا رو هک کرد.

eshpilen

یک شنبه 26 آبان 1392, 14:13 عصر

مشتری اولش دولته.میشه با چنین چیزی همه ی دنیا رو هک کرد.
اغراق!
مگه مکانیزم امنیتی فقط کپچا هست و همهء امنیت همه چیز روی کپچا استواره؟!
اصولا روی کپچا بیشتر برای جلوگیری از روبات های اسپمر بیشتر اتکا میشه و حمله های خودکار، و حتی الامکان هم باید برای مکمل باشه و فقط روی کپچا اتکا نشه.
همین الان بیشتر کپچاها در دنیا قابل کرک هستن. فقط یک مقدار هزینهء پردازشی داره دیگه. ضمنا لازم نیست ضریب موفقیت 100% باشه که بگیم کپچا کرک شده؛ بلکه از یک درصدی که جوابهای درست بالاتر بره، میگن کرک شده، چون در عمل دیگه حفاظت کافی ایجاد نمیکنه.
بیشتر کپچاهای غیرحرفه ای که هست و افراد متخصص پردازش تصویر درست نکردن، نسبتا براحتی کرک میشن. برنامه هاش هم همچین چیز کمیاب و شاخ و گران قمیتی نباید باشه.

FastCode

یک شنبه 26 آبان 1392, 18:06 عصر

اغراق!
مگه مکانیزم امنیتی فقط کپچا هست و همهء امنیت همه چیز روی کپچا استواره؟!
اصولا روی کپچا بیشتر برای جلوگیری از روبات های اسپمر بیشتر اتکا میشه و حمله های خودکار، و حتی الامکان هم باید برای مکمل باشه و فقط روی کپچا اتکا نشه.
همین الان بیشتر کپچاها در دنیا قابل کرک هستن. فقط یک مقدار هزینهء پردازشی داره دیگه. ضمنا لازم نیست ضریب موفقیت 100% باشه که بگیم کپچا کرک شده؛ بلکه از یک درصدی که جوابهای درست بالاتر بره، میگن کرک شده، چون در عمل دیگه حفاظت کافی ایجاد نمیکنه.
بیشتر کپچاهای غیرحرفه ای که هست و افراد متخصص پردازش تصویر درست نکردن، نسبتا براحتی کرک میشن. برنامه هاش هم همچین چیز کمیاب و شاخ و گران قمیتی نباید باشه.
اتفاقا درصدهای آخر برای بعضی هک کردنها خیلی تاثیر داره.
بیشتر سایتهای high profile بعد از یک تعداد مشخص که captcha اشتباه وارد بشه محدوده IP رو میبندند.یعنی تا ۱۰ تا خطا با 50٪ 20 تا شانس داری و با 90% 100 تا و با 99% 1000 تا شانس داری.

r00tkit

یک شنبه 26 آبان 1392, 20:01 عصر

مشتری اولش دولته.میشه با چنین چیزی همه ی دنیا رو هک کرد.
:بامزه:
جان؟ کلا کپچا( از دید پن تستی) فقط یکی *از روش های جلو گیری از Brute Force هستش ( در کنار WAF ,...) و توی تجربه کاری تا حالا جایی نبوده( در حد خیلی کم اصلا یادم نیست ) که کپچا برای تست نفوذ مزاحمت ایجاد کنه
بهتره یه نگاهی به https://www.owasp.org/index.php/Top_10_2013-Top_10

* بقیه کاربرد های کپچا رو :http://www.google.com/recaptcha/captcha

مصطفی ساتکی

یک شنبه 26 آبان 1392, 20:42 عصر

سلام
اگه کسی بتونه برنامه ای بنویسی که هر کپچایی که انسان میتونه بخونه رو بخونه حدودا چه قیمتی میتونه داشته باشه؟ با فرض اینکه نرم افزار صد در صد درست کار کنه برای هر کپچایی بدون استثنا.
ممنون.
بعضی از کپچا ها خواندنشون برای انسان هم مشکله .کپچاهایی که افراد متخصص تولید کردن خواندن آنها به همین سادگی نیست که دوستان عرض می کنند یعنی امکان این وجود نداره با دانش امروز بشر تیمی بتونه موتوری طراحی کنه که هر نوع کپچا رو بدید بخونه تکنیک های پیش پردازشی و استخراج ویژگی و حتی کلاسفیر ها برای بعضی از کپچا ها با کپچاهای دیگر متفاوته .

درست کردن کپچایی که خواندنش سخت باشه کار پیچیده ای نیست ولی خواندنش چرا. در ضمن اگر دوستان موتوری سراغ دارن که کپچاهای درست درمونو می خونه و سورسش هم وجود داره لطف کنن لینک بزارن.

دست خط offline برای دستخط های خوب هنوز جز پروژه های ناتمام فیلید OCR هستش.

من هم از نظر قیمتی با حرف fastcode موافقم.

1485159

یک شنبه 26 آبان 1392, 20:48 عصر

آقای ساتکی به چه دلیلی میگید که غیر ممکنه؟ چرا اینقدر با اطمینان؟ حتما دلیلی دارین دیگه؟

مصطفی ساتکی

یک شنبه 26 آبان 1392, 21:13 عصر

اول اینکه بهترین OCR تجاری fine reader و بهترین OCR رایگان tesseract هستش براحتی می تونید هر دوشون را تست کنید البته finer reader جز OCR هایی هستش که کار ICR یعنی خواندن دستخط رو هم داره ببینید که چقدر تو دست خط offline ضعیف عمل می کنه. دوم شما صحبت شما یک ICR نیست صحبت از یک ICR هوشمند می کنید حداقل در ICR فرض بر این هست که میزان نویز در صفحه از یک حد مشخص بیشتر نباشه.
همانطور که در پست قبلیم عرض کردم یک engine تولید کنید که خودش به صورت خودکار preprocessing ,registeration, normalization,segmentation, feature extraction ,classification رو انجام بده.
در pre processing شما بایستی نویز را از غیر نویز تشخیص بدید کپچای یک صفحه نیست که از دنیای واقعی آمده باشه یک تصویر ورودی ساخته ذهن خلاق آدمیزاده پس همین مرحلش خیلی مشکله.
در registeration شما هیچ چیزی ندارید که حداقل به عنوان baseline باشه .
چون baseline ندارید عملاً نرمالیزیشن رو هم از دست میدید.
segmentation نمی تونید انجام بدید در دستخط یک فرض کلی وجود داره که شما توالی مشخص از اشکال با قاعده مشخص پشت سرهم قرار می گیرند که می تونید با یک HMM همه این حالتها را train کنید البته آن هم محدودیت در زمان اجرایی داره .یعنی طرف بدترین دستخط رو هم داشته باشه توی یک چارچوب مشخص می نویسه.در نوشته های تایپی از روش analytical استفاده میشه و در نوشته های دستخط از روش Holistic ولی تو کپچا تکلیف مشخص نیست.
feature extraction چی میخاید انتخاب کنید یکی از بهترین روش های برای اساس کانتور و اسکلتون هستش که روش اول به نرمالیزیشن حساسه و روش دوم به پارگی که بین حروف بوجود میاد البته این پارگی با روش های مثل گابور فیلتر جبران میشه ولی این میزان جبران هم یک آستانه طبیعی براش وجود داره که تو کپچا هیچ قاعده ای وجود نداره.
و در آخر classification زمانیکه شما بخاید هر چیز جدیدی رو که کاربر معرفی می کنه شناسایی کنید و به اصلاح روشتون آداپتیو باشه این کار یک سری مزیت داره و یک سری معایب که معایبش به محاسنش می چربه .یعنی فاز آموزش شما به جایی میرسه که دیگه کلاسفیر نمی تونه همگرا شه و similarity های نزدیک به هم میده که شما نمی تونید یک آستانه مشخص برای پاسخ گویی داشته باشید از اون طرف هم بایستی روش های مثل tree hash استفاده کنید که بتونید داده های حجیم رو کلاسیفای کنید که این tree hash میان این عملیات رو به صورت تقریبی انجام میدن در ضمن بایستی یک روش کلاسترینگ پیچیده ای استفاده کنید که داده های شما را قبل از کلاسیفی کردن کلاستر کنه که اون هم چالش هایی رو بهمراه داره یعنی از یک روش کلاسترینگ ساده نمی تونید به تنهایی استفاده کنید بلکه چندین روش کلاسترینگ بایستی با هم این عملیات رو انجام بده که tesseract تا حدی این کارو داره انجام میده.
البته همه OCR ها یک بخش از دقتشونو مدیون lexicon و یا n-gram ی که استفاده می کنند هستند که این بخش در اکثر در طراحی کپچا نقص میشه که از این خاصیت استفاده نشه.
شاید از دور اینکار آسون به نظر برسه ولی واقعاً سخته .من OCR فارسی- انگلیسی با قابلیت افزودن فونت پیاده سازی کردم در حد tesseract البته نه با ansi c با C++‎‎‎‎‎‎‎11 و الان دارم روی پروژه دستخط کار می کنم اگر دوستانی واقعاً علاقمند به اینکار هستند می تونن با ما تو اینکار همکاری کنند.

FastCode

یک شنبه 26 آبان 1392, 22:29 عصر

به جرات میگم این یکی از سه چهار تا پست مفید این تالاره که نمیشه ازش تشکر کرد.
ممنون از اطلاعات مفیدی که به اشتراک گزاشتین.

noroozifar

یک شنبه 26 آبان 1392, 23:05 عصر

واقعا این بحث خیلی خوب بود همه تمامی اطلاعات عمومی شان یا بهتر بگیم تخصصی را گذاشتند جلو ... مخصوصا من تمامی حرف های شما را متوجه شدم و خیلی لذت بردم چون همین الان دارم مقالات امنیت برای یکی از پروژه های دانشگاهم می خوانم

mehdiomnia

یک شنبه 26 آبان 1392, 23:40 عصر

خارجی نوشتین ها . شیفته فرهنگ غرب هستید همتون اصلا :))
مرسی بچه ها عالی بود هر چند چیزی نفهمیدم از نوشته هاتون
بنظرم یه کپچا ریدر خوب در همین ایران حدود 5 میلیون میتونی بفروشی به اینایی که سایت های تبلیغاتی دارن و هی توی ورد پرس و بلاگفا و ... نظر الکی میفرستن

eshpilen

دوشنبه 27 آبان 1392, 07:41 صبح

اتفاقا درصدهای آخر برای بعضی هک کردنها خیلی تاثیر داره.
بیشتر سایتهای high profile
اول گفتی تمام دنیا، حالا شد بیشتر سایتهای high profile.
ضمنا بازم شک دارم بیشترشون اینطور باشن.

بعد از یک تعداد مشخص که captcha اشتباه وارد بشه محدوده IP رو میبندند.یعنی تا ۱۰ تا خطا با 50٪ 20 تا شانس داری و با 90% 100 تا و با 99% 1000 تا شانس داری.
1000 تا هم که شانس داشته باشی، فقط میتونی اکانتهایی رو که پسورد واقعا ضعیفی دارن هک کنی.
بقیهء سایت مشکلی براش پیش نمیاد، بقیهء اکانتها مشکلی پیش نمیاد، کل دنیا هک نمیشه، همهء مسائل هم به کپچا ربط نداره.
البته بعضی بخشها مثل ثبت نام و کامنت هم تاحدی اسپم میشن و ممکنه در بعضی موارد دیتابیس حجمش بیش از حد زیاد بشه. بستگی داره که درصد موفقیت کرک کپچا چقدر باشه و هزینهء این کار چقدر باشه و اهمیت هدف چقدر باشه که آیا برای کرکر صرف بکنه یا نه.
البته بعضی سیستمهای کامنت یا حتی ثبت نام هم روی حالتی تنظیم شدن که نیاز به تایید دستی ادمین داره ثبت نامها و کامنت ها. اونا مشکل زیادی براشون پیش نمیاد.

eshpilen

دوشنبه 27 آبان 1392, 07:45 صبح

اکثر کپچاها هم قابل کرک هستن (غیر از اونایی که خوب حرفه ای هستن و توسط افراد متخصص درست شدن - مثل مال گوگل). برنامش قبلا نوشته شده. ولی بعنوان پروژه های تحقیقاتی و مثلا در دانشگاه و اینا، که اونا رو به دلایل واضحی بصورت عمومی منتشر نکردن احتمالا. من خودم یک بار دربارهء یک برنامه ای (مربوط به حمله های Timing بود) که پروژهء دانشگاهی بود با یکی از نویسندگانش تماس گرفتم و اطلاعات بیشتری خواستم، گفت متاسفانه نمیتونیم کدمنبع رو بهتون بدیم، ولی اطلاعات بیشتری اگر خواستید و خواستید خودتون درست کنید راهنمایی میکنیم. بهرحال من PDF اش رو قبلا خونده بودم و توش از نظر علمی و عملی بقدر کافی اطلاعات داده بود که فردی که دانش و تخصص کافی داشته باشه بتونه مبنای کار رو بطور کامل درک کنه.

خیلی از کرک ها و حمله ها بصورت تئوریک یا عملی ثابت شده که امکان پذیر هستن، اما دانشجو و استاد و دانشمند که مثل دوتا هکر معمولی نیستن که برای خودنمایی یا همینطور از روی نادانی و بچگی بیان هرچی درست میکنن رو در اختیار عموم بذارن تا فردا هر بی سر و پایی ازش سوء استفاده کنه و دنیا رو بهم بریزه.

مصطفی ساتکی

دوشنبه 27 آبان 1392, 07:57 صبح

البته بعضی سیستمهای کامنت یا حتی ثبت نام هم روی حالتی تنظیم شدن که نیاز به تایید دستی ادمین داره ثبت نامها و کامنت ها. اونا مشکل زیادی براشون پیش نمیاد.
اگر کسی بخاد هزینه کنه برای سایتش با datamining میشه جلوی کامنت spam ها رو گرفت همین کاری که الان service های email انجام می دن در اکثر موارد تشخیصش سخت نیست بجز اینکه باز هم کامنت spam توسط متخصصین طراحی شه که خودشون تو data mining دستی داشته باشند.

FastCode

دوشنبه 27 آبان 1392, 09:27 صبح

Timing attack خیلی چیز پیچیده ای نیست.
فقط یک مقدار ریاضی و نمونه آزمایشی و زمان تست نیاز داره.