View Full Version : داده کاوی و لزوم دسترسی به داده های محرمانه
قله بلند
شنبه 04 اردیبهشت 1389, 20:16 عصر
با عرض سلام
یکی از اساتید به دوستم پیشنهاد چند تا موضوع رو برای ارشد دادند و قبول کردند که توی یکی از این موضوع ها، استاد مشاور دوستم بشن.
شبکه های عصبی
داده کاوی
ژنتیک الگوریتم
منطق فازی
استادمون گفتند که منطق فازی ساده تر و شبکه های عصبی هم از همه سخت تره.
1-حالا، استاد راهنمایی که دوستم می خواد انتخاب کنه، گفتند که داده کاوی احتیاج به داده های محرمانه داره. آیا این مطلب صحیح هست؟ یعنی اگه مثلاً دوستم بخواد راجع به دانشگاه محل تحصیلش، بحث داده کاوی رو پیاده سازی کنه باید به داده های محرمانه دانشگاه دسترسی داشته باشه؟
2-شما چگونه به این 4 موضوع نگاه می کنید، هم از بُعد تجاری و هم از بُعد علمی و تکنیکی.
Mamdos
شنبه 04 اردیبهشت 1389, 23:11 عصر
اگر بخوان راجع به دانشگاه محل تحصیلشون این کار رو بکنند خب معلومه که نیاز به داده دارند. این داده از کجا قراره دربیاد؟ یا دادههایی که در دسترس عموم هست (مثلاً در وب) یا دادههای پایگاه دادهی دانشگاه که طبیعتاً محرمانهست.
برای انجام پروژههای عملی دادهکاوی معمولاً از وب داده جمعآوری میکنند چون در دسترس همهست. مثلاً میشه از سایت برنامهنویس کلی داده به صورت اتوماتیک جمع کرد و تحلیلشون کرد. اگر بخوان پروژهی تجاریتری انجام بدن طبیعتاً باید با جایی هماهنگ کنند یا قرارداد ببندند تا داده در اختیارشون قرار داده بشه.
در ضمن این چهار تا موضوع در یک سطح نیستند، میشه گفت شبکههای عصبی و الگوریتمهای ژنتیک و منطق فازی در یک سطح هستند و دادهکاوی یک زمینهی خیلی وسیعیه که میتونه از این سه موضوع هم استفاده بکنه، بنابراین طبیعیه که دادهکاوی هم از نظر پژوهشی و هم از نظر تجاری جذابیت بیشتری داره چون خیلی کلیه. برای پروژهی ارشد باید زمینهی جزئیتری رو انتخاب کرد، یعنی مثلاً یک زیرشاخهی دادهکاوی.
ولی در کل نیاز به تحقیق بیشتری هست. ایشون باید در هر یک از این حوزهها چند تا مقاله یا یک کتاب اصلی و جدید اون حوزه رو بخونند تا بتونند موضوع پایاننامهی ارشد انتخاب کنند و همینطوری نمیشه نظر داد. مثلاً ممکنه حین تحقیق معلوم بشه که الگوریتم ژنتیک دیگه موضوع تحقیقاتی داغی نیست و نمیشه ازش مقالهی خوبی درآورد یا استفادهی تجاری مهمی کرد (مثلاً).
قله بلند
شنبه 04 اردیبهشت 1389, 23:46 عصر
سلام. ممنونم از پاسخ سریعتون. حتماً راجع به موضوعات ریزتری که پیدا کرده ازش سوال می کنم تا راهنمایی بفرمایید. درضمن شما فرمودید که مثلاً از سایت برنامه نویس داده جمع کنه، می شه بگویید چه جوری؟
Mamdos
یک شنبه 05 اردیبهشت 1389, 00:21 صبح
خواهش میکنم. جمعآوری داده از وب روش خیلی رایجیه که به کمک روباتهای نرمافزاری (مثل خزندههای وب) انجام میشه و احتمالاً بیشتر محققان دادهکاوی از این روش برای جمعآوری داده استفاده میکنند! البته به صورت غیرمستقیم، مثلاً یک نفر قبلاً دادهها را جمع کرده و برای استفادهی عموم در دسترس قرار داده. بهترین مثال در این زمینه پیکرهی همشهری (http://ece.ut.ac.ir/DBRG/Hamshahri/fa.htm) هست که توسط بچههای دانشگاه تهران تهیه شده و کل مقالات روزنامهی همشهری از سال ۷۵ تا ۸۱ رو داره (۱۶۰۰۰۰ مطلب است که از سایت آرشیو همشهری بارگیری کردند). فکر کنم این پیکره منبع خیلی خوب و جالبی هست برای دادهکاوی، چون نمایندهی بخش مهمی از ادبیات رایج فارسی معاصر در روزنامههای ایرانی هست و میشود کلی اطلاعات مفید ازش بیرون کشید. حتماً به دوستتون پیشنهادش کنید. از این جور منابع غیرفارسی هم که زیاد هست (بهشون میگن Dataset)، که معمولاً ویژهی یک کار خاص تولید میشوند. مثلاً اینجا (http://snap.stanford.edu/data/index.html) تعداد زیادی Dataset داره برای دادهکاوی شبکههای اجتماعی که از دنیای واقعی، از جمله وب، جمعآوری شدهاند. پیکرهی همشهری بیشتر مناسب تحقیقات متنکاوی (Text Mining)، زبانشناختی و بازیابی اطلاعات هست.
برای تهیهی اینطور پیکرهها مثلاً یک برنامه مینویسند که اطلاعات تعداد پستها و تشکرهای مربوط به هر یک از کاربران برنامهنویس رو از صفحهی شخصیشون با استفاده از این صفحه (http://barnamenevis.org/forum/memberlist.php) به طور اتوماتیک بارگیری و دستهبندی (نمایهگذاری) کنه. این طوری میشه مثلاً فهمید کدام کاربران بیشتر از دکمهی تشکر استفاده میکنند، چه کسانی از افراد متنوعتری تشکر میگیرند (و احتمالاً پستهای باکیفیتی دارند) یا این که چه کسانی در استفاده از دکمهی تشکر تقلب میکنند (مثلاً با هم قرار میگذارند از پستهای همدیگه تشکر کنند). اگر از متن ارسالها (۸۵۰هزار ارسال تاکنون) هم استفاده بشه که منبع خیلی غنیایه برای دادهکاوی و استخراج دانش در حوزهی متون و مکالمات فارسی دربارهی رایانه و برنامهنویسی. همچنین میشه از روابط دوستی بین کاربران یا تشکر کردن آنها یک شبکهی اجتماعی (گراف خیلی بزرگ) ساخت که خوراک دادهکاویه!
قله بلند
یک شنبه 05 اردیبهشت 1389, 00:33 صبح
ماشالله به اینهمه اطلاعات و اینهمه دانش. واقعاً غافلگیر شدم.
مصطفی ساتکی
یک شنبه 05 اردیبهشت 1389, 08:53 صبح
من تو هر 5 زمینه پردازش تصویر ،عصبی ،فازی ،ژنتیک وWavelet کار می کنم. می تونی یه موضوع Hybrid مثلاٌ شبکه عصبی و فازی استفاده کنه. من پیشنهاد می دم یه Search Engine تصویر تو وب بنویسه. البته بایستی پیش زمینه تو سه تا مقوله اصلی بالا داشته باشه
قله بلند
یک شنبه 05 اردیبهشت 1389, 14:34 عصر
سلام. ممنونم از شما دو دوست عزیز. واقعاً ممنونم که کمک می کنید. الان دوستم واقعاً اضطراب گرفته و نمی دونه چه موضوعی رو انتخاب کنه. آدم هم وقتی مضطرب می شه انگار دیگه نمی تونه فکر کنه و دقیق تصمیم بگیره. فقط یه خواهشی دارم و اینکه بفرمایید گام اول رو چگونه برداره؟ چون الان خودش نمی دونه چه موضوعی رو انتخاب کنه. باید ازش بخوام تا در سایت ثبت نام کنه و خودش به صورت مستقیم با شما در ارتباط باشه. جناب Delphi_CAT عزیز، شما چگونه این 5 موضوع رو بلد هستید؟ آیا با هم ارتباط نزدیکی دارن؟
Mamdos
یک شنبه 05 اردیبهشت 1389, 17:24 عصر
از اظهار لطف شما متشکرم. گام اول اینه که علائقشون رو مشخص کنند و در موردشون تحقیق و مطالعه کنند. مثلاً با توجه به موضوعاتی که آوردید، اگر علائقشون همینهاست، باید در مورد هر یک از چهار موضوع مطالعهی عمیقتری از منابع مرجع (مثل کتابهای درسی) بکنند تا بیشتر با آنها آشنا بشوند. بعد دو حالت دارد: یا ایدهای در آن زمینهها به ذهنشان میرسد یا نمیرسد. اگر ایدهای ندارند از یک فرد باتجربه میتوانند کمک بگیرند یا در مورد موضوعات داغ تحقیق کنند، که میتونه از طریق وبگاه کنفرانسها، ژورنالها و آزمایشگاههای اون حوزه (مثلاً منطق فازی) یا آدمهای باتجربه باشه. میتونند به صفحهی دانشکدههای کامپیوتر معروف ایران هم سر بزنند و فهرست مقالات تولید شدهشون رو جستجو کنند و ببینند.
اگر ایده یا ایدههایی دارند، باید در موردشان با چند آدم باتجربه صحبت کنند و با تحقیق مطمئن شوند که ایدهشان واقعاً به درد میخورد و تکراری، پرت یا بیش از حد ساده یا سخت نیست. باید معیارهایی که براشون مهمه رو هم مشخص کنند: راحت بودن، امکان تولید مقاله (و در نتیجه رزومهی تحقیقاتی قوی برای دکترا) یا به درد کار خوردن، نظری یا کاربردی بودن، به درد ایران خوردن و معیارهای دیگر (که ممکن است با هم تناقض داشته باشند و باید بینشان تعادل برقرار شود). البته مهمترین معیار علاقه هست چون اگر علاقه نداشته باشند، انگیزهی کار کردن روی پایاننامهشان را نخواهند داشت.
البته اینها در صورتیه که بخواهند با دقت موضوع انتخاب کنند (که راه بهتری هست). راه دیگهش اینه که دل به دریا بزنند و اولین پیشنهاد رو بپذیرند! که توصیه نمیشه، چون اولش راحته ولی بعداً ممکنه پشیمان بشوند و مثلاً بفهمند که به موضوع علاقهای ندارند.
خود من اینطوری موضوع انتخاب کردم: حوزهی علاقهی اصلی (مهندسی نرمافزار) --> استاد مورد علاقهام در آن حوزه --> زیرحوزههای مورد علاقهی آن استاد --> مطالعه در مورد آن زیرحوزهها و کارهایی که قبلاً توسط دانشجویان این استاد انجام شده --> ایدههایی به ذهنم رسید --> مشورت با استاد --> حذف ایدههایی که استاد به آنها علاقه نداشت --> انتخاب موضوع با توجه به برنامهام برای آینده (آیا میخواهم دکترا ادامه بدهم یا وارد بازار کار شوم)، مطالعهی ادبیات اخیر در آن زیرحوزه و در نهایت انتخاب موضوعی که فکر میکنم هم در کار به دردم میخورد هم مورد علاقهی پژوهشگران داخلی و خارجی است (پتانسیل تولید مقالهی پرارجاع دارد) و هم کاربردی است (بهدردنخور و بیش از حد انتزاعی یا پرت نیست).
مصطفی ساتکی
یک شنبه 05 اردیبهشت 1389, 23:23 عصر
من به یکباره این 5 زمینه فعالیت نکردم.برمیگرده به 11 سال پیش با نوشتم Game Mortal Kombat .من در این game جلوه های ویژه رو برعهده داشتم(البته تو Dos بود).خیلی هم آسون نبود.برای داشتن سرعت بالا بایستی Low Level کار می کردیم. برای دسترسی مستقیم Dma از کتاب 2 جلدی پیتر ایبل پیر مایکروسافت شروع کردم و تو Dos ما بایستی فایل ها گرافیکی رو به صورت باینری باز می گردد.سپس ریاضی و هندسی قوی کردم.تا رسیدم به اصل پردازش تصویر تصمیم گرفیتم OCR دستخط بنویسم رو اون کار کردم به جواب های رسیدم .سپس شروع کردم به OCR تایپی فارسی .تو اون موفق شدم.برای این موفقیت من مجبور بودم تحقیق کنم.درسته تو دانشگاه شبکه عصبی درس می دن ولی همیشه گفتم اون داستان شبکه عصبی و جنبه علمی نداره.البته این قضیه رو از پیش نیازهای درس شبکه عصبی هم میشه فهمید و بعضی از شبکه ها ارتباط تنگاتنگی به فازی داره که اینجا مجبور میشن فازی یاد بگیرین.در پردازش تصویر در زمینه فشرده سازی و steganography مجبورید wavelet یاد بگیرد.حالا ژنتک از کجا آمده در بعضی از شبکه های عصبی برای اینکه Search داشته باشین که برای یافتن جواب خطی عمل نکنه مجبورین ژنتیک بلد باشین .البته کلی چیزهای دیگه هم بایستی بلد باشین و بعلاوه یه برنامه نویس سیستم. اگر سوالی پروژه ای در این زمینه های بردارید می تونید مشکلات مطرح کنید و جواب بگیرید
قله بلند
دوشنبه 06 اردیبهشت 1389, 13:38 عصر
سلام. واقعاً آدم لذت می بره وقتی مطالبتون رو می خونه. امیدوارم همینگونه کمک ما باشید و ما هم بتونیم استفاده ببریم.
قله بلند
دوشنبه 13 اردیبهشت 1389, 16:28 عصر
سلام دوستان. یک مبحث دیگه ای که می شه راجع به داده کاوی باشه، بحث داده کاوی و آموزش الکترونیک هست. نظر شما راجع به این موضوع چیه؟ در حول و حواشی این موضوع، چه موضوعات دیگه ای می تونه مطرح بشه؟ منظورم ریز تر کردن بحث داده کاوی و آموزش الکترونیک هست.
mehdihazegh
جمعه 29 آبان 1394, 16:38 عصر
با سلام خدمت دوستان
ببخشید این سوال رو میپرسم و شاید این یک سوال خیلی مبتدی باشه ولی برای من یک خورده مبهم هست
میشه لطف کنید در مورد dataset توضیح بدید؟؟
توی این data set ها چه اطلاعاتی ذخیره شده؟؟
چجوری از این دیتاست ها میشه اطلاعات بدست اورد؟؟
این دیتا ست ها به چه منظور ایجاد می شوند؟؟
توی این دیتا ست ها داده است یا الگوریتم ؟؟چون توی یک مقاله خوندم اومدن تعداد خط های برنامه رو بدست اوردن ، یا تعداد خطاهایی که قراره رخ بده ، خب اینا چجوری بدست میاد؟؟ الگوریتم ها توی دیتاست ها میره یا مثلا فقط تعداد خط های برنامه؟؟
این دیتا ستی که تو C# درست میکنیم چیه؟؟
همون دیتا ست هست یا فرق داره ؟؟؟
vBulletin® v4.2.5, Copyright ©2000-1403, Jelsoft Enterprises Ltd.