PDA

View Full Version : داده کاوی و لزوم دسترسی به داده های محرمانه



قله بلند
شنبه 04 اردیبهشت 1389, 19:16 عصر
با عرض سلام
یکی از اساتید به دوستم پیشنهاد چند تا موضوع رو برای ارشد دادند و قبول کردند که توی یکی از این موضوع ها، استاد مشاور دوستم بشن.
شبکه های عصبی
داده کاوی
ژنتیک الگوریتم
منطق فازی

استادمون گفتند که منطق فازی ساده تر و شبکه های عصبی هم از همه سخت تره.

1-حالا، استاد راهنمایی که دوستم می خواد انتخاب کنه، گفتند که داده کاوی احتیاج به داده های محرمانه داره. آیا این مطلب صحیح هست؟ یعنی اگه مثلاً دوستم بخواد راجع به دانشگاه محل تحصیلش، بحث داده کاوی رو پیاده سازی کنه باید به داده های محرمانه دانشگاه دسترسی داشته باشه؟
2-شما چگونه به این 4 موضوع نگاه می کنید، هم از بُعد تجاری و هم از بُعد علمی و تکنیکی.

Mamdos
شنبه 04 اردیبهشت 1389, 22:11 عصر
اگر بخوان راجع به دانشگاه محل تحصیلشون این کار رو بکنند خب معلومه که نیاز به داده دارند. این داده از کجا قراره دربیاد؟ یا داده‌هایی که در دسترس عموم هست (مثلاً در وب) یا داده‌های پایگاه داده‌ی دانشگاه که طبیعتاً محرمانه‌ست.
برای انجام پروژه‌های عملی داده‌کاوی معمولاً از وب داده جمع‌آوری می‌کنند چون در دسترس همه‌ست. مثلاً می‌شه از سایت برنامه‌نویس کلی داده به صورت اتوماتیک جمع کرد و تحلیلشون کرد. اگر بخوان پروژه‌ی تجاری‌تری انجام بدن طبیعتاً باید با جایی هماهنگ کنند یا قرارداد ببندند تا داده در اختیارشون قرار داده بشه.

در ضمن این چهار تا موضوع در یک سطح نیستند، می‌شه گفت شبکه‌های عصبی و الگوریتم‌های ژنتیک و منطق فازی در یک سطح هستند و داده‌کاوی یک زمینه‌ی خیلی وسیعیه که می‌تونه از این سه موضوع هم استفاده بکنه، بنابراین طبیعیه که داده‌کاوی هم از نظر پژوهشی و هم از نظر تجاری جذابیت بیشتری داره چون خیلی کلیه. برای پروژه‌ی ارشد باید زمینه‌ی جزئی‌تری رو انتخاب کرد، یعنی مثلاً یک زیرشاخه‌ی داده‌کاوی.
ولی در کل نیاز به تحقیق بیشتری هست. ایشون باید در هر یک از این حوزه‌ها چند تا مقاله یا یک کتاب اصلی و جدید اون حوزه رو بخونند تا بتونند موضوع پایان‌نامه‌ی ارشد انتخاب کنند و همین‌طوری نمی‌شه نظر داد. مثلاً ممکنه حین تحقیق معلوم بشه که الگوریتم ژنتیک دیگه موضوع تحقیقاتی داغی نیست و نمی‌شه ازش مقاله‌ی خوبی درآورد یا استفاده‌ی تجاری مهمی کرد (مثلاً).

قله بلند
شنبه 04 اردیبهشت 1389, 22:46 عصر
سلام. ممنونم از پاسخ سریعتون. حتماً راجع به موضوعات ریزتری که پیدا کرده ازش سوال می کنم تا راهنمایی بفرمایید. درضمن شما فرمودید که مثلاً از سایت برنامه نویس داده جمع کنه، می شه بگویید چه جوری؟

Mamdos
شنبه 04 اردیبهشت 1389, 23:21 عصر
خواهش می‌کنم. جمع‌آوری داده از وب روش خیلی رایجیه که به کمک روبات‌های نرم‌افزاری (مثل خزنده‌های وب) انجام می‌شه و احتمالاً بیشتر محققان داده‌کاوی از این روش برای جمع‌آوری داده استفاده می‌کنند! البته به صورت غیرمستقیم، مثلاً یک نفر قبلاً داده‌ها را جمع کرده و برای استفاده‌ی عموم در دسترس قرار داده. بهترین مثال در این زمینه پیکره‌ی همشهری (http://ece.ut.ac.ir/DBRG/Hamshahri/fa.htm) هست که توسط بچه‌های دانشگاه تهران تهیه شده و کل مقالات روزنامه‌ی همشهری از سال ۷۵ تا ۸۱ رو داره (۱۶۰۰۰۰ مطلب است که از سایت آرشیو همشهری بارگیری کردند). فکر کنم این پیکره منبع خیلی خوب و جالبی هست برای داده‌کاوی، چون نماینده‌ی بخش مهمی از ادبیات رایج فارسی معاصر در روزنامه‌های ایرانی هست و می‌شود کلی اطلاعات مفید ازش بیرون کشید. حتماً به دوستتون پیشنهادش کنید. از این جور منابع غیرفارسی هم که زیاد هست (بهشون می‌گن Dataset)، که معمولاً ویژه‌ی یک کار خاص تولید می‌شوند. مثلاً اینجا (http://snap.stanford.edu/data/index.html) تعداد زیادی Dataset داره برای داده‌کاوی شبکه‌های اجتماعی که از دنیای واقعی، از جمله وب، جمع‌آوری شده‌اند. پیکره‌ی همشهری بیشتر مناسب تحقیقات متن‌کاوی (Text Mining)، زبان‌شناختی و بازیابی اطلاعات هست.

برای تهیه‌ی اینطور پیکره‌ها مثلاً یک برنامه می‌نویسند که اطلاعات تعداد پست‌ها و تشکرهای مربوط به هر یک از کاربران برنامه‌نویس رو از صفحه‌ی شخصی‌شون با استفاده از این صفحه (http://barnamenevis.org/forum/memberlist.php) به طور اتوماتیک بارگیری و دسته‌بندی (نمایه‌گذاری) کنه. این طوری می‌شه مثلاً فهمید کدام کاربران بیشتر از دکمه‌ی تشکر استفاده می‌کنند، چه کسانی از افراد متنوع‌تری تشکر می‌گیرند (و احتمالاً پست‌های باکیفیتی دارند) یا این که چه کسانی در استفاده از دکمه‌ی تشکر تقلب می‌کنند (مثلاً با هم قرار می‌گذارند از پست‌های همدیگه تشکر کنند). اگر از متن ارسال‌ها (۸۵۰هزار ارسال تاکنون) هم استفاده بشه که منبع خیلی غنی‌ایه برای داده‌کاوی و استخراج دانش در حوزه‌ی متون و مکالمات فارسی درباره‌ی رایانه و برنامه‌نویسی. همچنین می‌شه از روابط دوستی بین کاربران یا تشکر کردن آن‌ها یک شبکه‌ی اجتماعی (گراف خیلی بزرگ) ساخت که خوراک داده‌کاویه!

قله بلند
شنبه 04 اردیبهشت 1389, 23:33 عصر
ماشالله به اینهمه اطلاعات و اینهمه دانش. واقعاً غافلگیر شدم.

مصطفی ساتکی
یک شنبه 05 اردیبهشت 1389, 07:53 صبح
من تو هر 5 زمینه پردازش تصویر ،عصبی ،فازی ،ژنتیک وWavelet کار می کنم. می تونی یه موضوع Hybrid مثلاٌ شبکه عصبی و فازی استفاده کنه. من پیشنهاد می دم یه Search Engine تصویر تو وب بنویسه. البته بایستی پیش زمینه تو سه تا مقوله اصلی بالا داشته باشه

قله بلند
یک شنبه 05 اردیبهشت 1389, 13:34 عصر
سلام. ممنونم از شما دو دوست عزیز. واقعاً ممنونم که کمک می کنید. الان دوستم واقعاً اضطراب گرفته و نمی دونه چه موضوعی رو انتخاب کنه. آدم هم وقتی مضطرب می شه انگار دیگه نمی تونه فکر کنه و دقیق تصمیم بگیره. فقط یه خواهشی دارم و اینکه بفرمایید گام اول رو چگونه برداره؟ چون الان خودش نمی دونه چه موضوعی رو انتخاب کنه. باید ازش بخوام تا در سایت ثبت نام کنه و خودش به صورت مستقیم با شما در ارتباط باشه. جناب Delphi_CAT عزیز، شما چگونه این 5 موضوع رو بلد هستید؟ آیا با هم ارتباط نزدیکی دارن؟

Mamdos
یک شنبه 05 اردیبهشت 1389, 16:24 عصر
از اظهار لطف شما متشکرم. گام اول اینه که علائقشون رو مشخص کنند و در موردشون تحقیق و مطالعه کنند. مثلاً با توجه به موضوعاتی که آوردید، اگر علائقشون همین‌هاست، باید در مورد هر یک از چهار موضوع مطالعه‌ی عمیق‌تری از منابع مرجع (مثل کتاب‌های درسی) بکنند تا بیشتر با آن‌ها آشنا بشوند. بعد دو حالت دارد: یا ایده‌ای در آن زمینه‌ها به ذهنشان می‌رسد یا نمی‌رسد. اگر ایده‌ای ندارند از یک فرد باتجربه می‌توانند کمک بگیرند یا در مورد موضوعات داغ تحقیق کنند، که می‌تونه از طریق وب‌گاه کنفرانس‌ها، ژورنال‌ها و آزمایشگاه‌های اون حوزه (مثلاً منطق فازی) یا آدم‌های باتجربه باشه. می‌تونند به صفحه‌ی دانشکده‌های کامپیوتر معروف ایران هم سر بزنند و فهرست مقالات تولید شده‌شون رو جستجو کنند و ببینند.
اگر ایده یا ایده‌هایی دارند، باید در موردشان با چند آدم باتجربه صحبت کنند و با تحقیق مطمئن شوند که ایده‌شان واقعاً به درد می‌خورد و تکراری، پرت یا بیش از حد ساده یا سخت نیست. باید معیارهایی که براشون مهمه رو هم مشخص کنند: راحت بودن، امکان تولید مقاله (و در نتیجه رزومه‌ی تحقیقاتی قوی برای دکترا) یا به درد کار خوردن، نظری یا کاربردی بودن، به درد ایران خوردن و معیارهای دیگر (که ممکن است با هم تناقض داشته باشند و باید بینشان تعادل برقرار شود). البته مهم‌ترین معیار علاقه هست چون اگر علاقه نداشته باشند، انگیزه‌ی کار کردن روی پایان‌نامه‌شان را نخواهند داشت.
البته این‌ها در صورتیه که بخواهند با دقت موضوع انتخاب کنند (که راه بهتری هست). راه دیگه‌ش اینه که دل به دریا بزنند و اولین پیشنهاد رو بپذیرند! که توصیه نمی‌شه، چون اولش راحته ولی بعداً ممکنه پشیمان بشوند و مثلاً بفهمند که به موضوع علاقه‌ای ندارند.

خود من اینطوری موضوع انتخاب کردم: حوزه‌ی علاقه‌ی اصلی (مهندسی نرم‌افزار) --> استاد مورد علاقه‌ام در آن حوزه --> زیرحوزه‌های مورد علاقه‌ی آن استاد --> مطالعه در مورد آن زیرحوزه‌ها و کارهایی که قبلاً توسط دانشجویان این استاد انجام شده --> ایده‌هایی به ذهنم رسید --> مشورت با استاد --> حذف ایده‌هایی که استاد به آن‌ها علاقه نداشت --> انتخاب موضوع با توجه به برنامه‌ام برای آینده (آیا می‌خواهم دکترا ادامه بدهم یا وارد بازار کار شوم)، مطالعه‌ی ادبیات اخیر در آن زیرحوزه و در نهایت انتخاب موضوعی که فکر می‌کنم هم در کار به دردم می‌خورد هم مورد علاقه‌ی پژوهشگران داخلی و خارجی است (پتانسیل تولید مقاله‌ی پرارجاع دارد) و هم کاربردی است (به‌دردنخور و بیش از حد انتزاعی یا پرت نیست).

مصطفی ساتکی
یک شنبه 05 اردیبهشت 1389, 22:23 عصر
من به یکباره این 5 زمینه فعالیت نکردم.برمیگرده به 11 سال پیش با نوشتم Game Mortal Kombat .من در این game جلوه های ویژه رو برعهده داشتم(البته تو Dos بود).خیلی هم آسون نبود.برای داشتن سرعت بالا بایستی Low Level کار می کردیم. برای دسترسی مستقیم Dma از کتاب 2 جلدی پیتر ایبل پیر مایکروسافت شروع کردم و تو Dos ما بایستی فایل ها گرافیکی رو به صورت باینری باز می گردد.سپس ریاضی و هندسی قوی کردم.تا رسیدم به اصل پردازش تصویر تصمیم گرفیتم OCR دستخط بنویسم رو اون کار کردم به جواب های رسیدم .سپس شروع کردم به OCR تایپی فارسی .تو اون موفق شدم.برای این موفقیت من مجبور بودم تحقیق کنم.درسته تو دانشگاه شبکه عصبی درس می دن ولی همیشه گفتم اون داستان شبکه عصبی و جنبه علمی نداره.البته این قضیه رو از پیش نیازهای درس شبکه عصبی هم میشه فهمید و بعضی از شبکه ها ارتباط تنگاتنگی به فازی داره که اینجا مجبور میشن فازی یاد بگیرین.در پردازش تصویر در زمینه فشرده سازی و steganography مجبورید wavelet یاد بگیرد.حالا ژنتک از کجا آمده در بعضی از شبکه های عصبی برای اینکه Search داشته باشین که برای یافتن جواب خطی عمل نکنه مجبورین ژنتیک بلد باشین .البته کلی چیزهای دیگه هم بایستی بلد باشین و بعلاوه یه برنامه نویس سیستم. اگر سوالی پروژه ای در این زمینه های بردارید می تونید مشکلات مطرح کنید و جواب بگیرید

قله بلند
دوشنبه 06 اردیبهشت 1389, 12:38 عصر
سلام. واقعاً آدم لذت می بره وقتی مطالبتون رو می خونه. امیدوارم همینگونه کمک ما باشید و ما هم بتونیم استفاده ببریم.

قله بلند
دوشنبه 13 اردیبهشت 1389, 15:28 عصر
سلام دوستان. یک مبحث دیگه ای که می شه راجع به داده کاوی باشه، بحث داده کاوی و آموزش الکترونیک هست. نظر شما راجع به این موضوع چیه؟ در حول و حواشی این موضوع، چه موضوعات دیگه ای می تونه مطرح بشه؟ منظورم ریز تر کردن بحث داده کاوی و آموزش الکترونیک هست.

mehdihazegh
جمعه 29 آبان 1394, 15:38 عصر
با سلام خدمت دوستان
ببخشید این سوال رو میپرسم و شاید این یک سوال خیلی مبتدی باشه ولی برای من یک خورده مبهم هست
میشه لطف کنید در مورد dataset توضیح بدید؟؟
توی این data set ها چه اطلاعاتی ذخیره شده؟؟
چجوری از این دیتاست ها میشه اطلاعات بدست اورد؟؟
این دیتا ست ها به چه منظور ایجاد می شوند؟؟
توی این دیتا ست ها داده است یا الگوریتم ؟؟چون توی یک مقاله خوندم اومدن تعداد خط های برنامه رو بدست اوردن ، یا تعداد خطاهایی که قراره رخ بده ، خب اینا چجوری بدست میاد؟؟ الگوریتم ها توی دیتاست ها میره یا مثلا فقط تعداد خط های برنامه؟؟
این دیتا ستی که تو C#‎‎‎ درست میکنیم چیه؟؟
همون دیتا ست هست یا فرق داره ؟؟؟