ورود

View Full Version : سوال: مشابهت فایل ها



f.atyeh
یک شنبه 19 بهمن 1393, 15:43 عصر
سلام به همه دوستان,
من چندین فایل دارم که شامل نام عکس هست. من این فایل ها رو شمارش کردم و خروجی این ها شامل فایل هایی هست که نرخ این عکس ها به ترتیب صعودیه. به عنوان مثال:
فایل f1‌: عکس a1 با نرخ m1
عکس a2 با نرخ m2 و الی آخر
فایل f2 : عکس a2 با نرخ n1
عکس a3 با نرخ n2 و الی اخر
و همین طور فایل های دیگه ....
تعداد و نوع عکس ها از اول نامحدود و نامشخصه. من تعداد ۱۰ تای اول (پرتکرارترین) این عکس ها رو جدا کردم. حالا من میخوام شباهت تقریبی این فایل ها رو با هم پیدا کنم که معیار من هم نرخ عکس ها است و هم نوع اونها. ضمن اینکه فایل ها ممکنه همپوشانی هم داشته باشن. مثلا فایلهای f1 , f2 , f6 تو یه دسته باشن. فایلهای f2 ,f3 , f7 هم تو یه دسته که f2 با هر دو دسته همپوشانی داره.
به نظر شما من چطور میتونم این کار رو انجام بدم ؟ به نظرتون میشه از الگوریتم های هوش مصنوعی استفاده کرد؟
ممنون از شما

rahnema1
یک شنبه 19 بهمن 1393, 19:54 عصر
سلام
شما می تونید این مقاله را مطالعه کنید:
Semantic Similarity Measure in Document Databases: An Earth Mover’s Distance-Based Approach
با استفاده از فاصله emd تشابه بین فایلها بدست بیارید

f.atyeh
یک شنبه 19 بهمن 1393, 23:18 عصر
سلام
شما می تونید این مقاله را مطالعه کنید:
Semantic Similarity Measure in Document Databases: An Earth Mover’s Distance-Based Approach
با استفاده از فاصله emd تشابه بین فایلها بدست بیارید

خیلی ممنون از لطف شما
ببخشید شما مقاله رو دارید اینجا آپلود کنید؟ چکیده رو خوندم به نظرم به کار من نزدیکه.
ممنون میشم.

rahnema1
دوشنبه 20 بهمن 1393, 07:10 صبح
خیلی ممنون از لطف شما
ببخشید شما مقاله رو دارید اینجا آپلود کنید؟ چکیده رو خوندم به نظرم به کار من نزدیکه.
ممنون میشم.

متاسفانه الان ندارم یکی از دوستان از freepapers.ir گرفته بود و فرستاده بود
یک سوال: آیا ممکنه یک فایل عکس هم از نوع A باشه و هم از نوع B ؟
اگر این جور باشه این روش جواب میده در غیر این صورت کافیه از فاصله cosine بین هیستوگرام تعداد تکرار نام عکسها استفاده بشه

f.atyeh
دوشنبه 20 بهمن 1393, 08:42 صبح
یک سوال: آیا ممکنه یک فایل عکس هم از نوع A باشه و هم از نوع B ؟


نکته سوال من اینه که عکس ها توی فایل ها هم متفاوت هستند از یکدیگه و هم مشترک بینشون وجود داره. اونهایی که مشترک هستن تعداد تکرارشون متفاوته و این تفاوت گاهی باعث میشه رتبه بندی عکس ها تغییر کنه. به عنوان مثال:
تو فایل f1 عکس a1 پرتکرار ترینه مثلا ۱۵۰۰ بار تکرار شده بنابراین تو رتبه اوله. اما تو فایل f2 اگرچه عکس a1 وجود داره اما تعداد تکرارش مثلا ۶۰۰ بار هست و در رتبه سوم تکرار قرار داره. من در شباهت بین فایل ها این نکته رو هم لحاظ میکنم. به این معنی که صرف وجود عکس مشترک نمی تونه ملاک مناسبی برای شباهت بین فایل ها باشه. تکرار اونها و به تبع اون رتبه عکس تو هر فایل هم جزو آیتم های مورد نظر برای اشتراک هست.
امیدوارم تونسته باشم مفهوم رو برسونم.فکر کنم یه کم پیچیدش کردم.

rahnema1
دوشنبه 20 بهمن 1393, 09:12 صبح
شما لازمه یک لست درست کنید که داخلش اسم تمام فایلهای عکس ( به صورت یکتا) باشه
فایل f1‌: عکس a1 با نرخ m1
عکس a2 با نرخ m2
فایل f2 : عکس a2 با نرخ n1
عکس a3 با نرخ n2
بنابراین لیست ما می شه a1 و a2 و a3
حالا برای هر فایل تعداد تکرار عکس را می نویسیم که جدولی به این شکل ایجاد میشه



| a1 a2 a3
-------------------
f1: | m1 m2 0
f2: | 0 n1 n2

بعد شما باید فاصله cosine بین هر دو سطر اندازه بگیرید تا تشابه دو به دو بین فایلها مشخص بشه

f.atyeh
دوشنبه 20 بهمن 1393, 10:30 صبح
شما لازمه یک لست درست کنید که داخلش اسم تمام فایلهای عکس ( به صورت یکتا) باشه
فایل f1‌: عکس a1 با نرخ m1
عکس a2 با نرخ m2
فایل f2 : عکس a2 با نرخ n1
عکس a3 با نرخ n2
بنابراین لیست ما می شه a1 و a2 و a3
حالا برای هر فایل تعداد تکرار عکس را می نویسیم که جدولی به این شکل ایجاد میشه



| a1 a2 a3
-------------------
f1: | m1 m2 0
f2: | 0 n1 n2

بعد شما باید فاصله cosine بین هر دو سطر اندازه بگیرید تا تشابه دو به دو بین فایلها مشخص بشه


ممنون از شما
فکر کنم این روش زمانی جواب بده که از قبل عکس های ما مشخص باشند. در صورتی که من حدود ۵۰ تا فایل به این شکل دارم که چون داده ها لاگ هستند از قبل نوع عکس ها مشخص و محدود نیست.
از طرفی این روش همپوشانی بین فایل ها رو جواب میده؟

rahnema1
دوشنبه 20 بهمن 1393, 12:27 عصر
ممنون از شما
فکر کنم این روش زمانی جواب بده که از قبل عکس های ما مشخص باشند. در صورتی که من حدود ۵۰ تا فایل به این شکل دارم که چون داده ها لاگ هستند از قبل نوع عکس ها مشخص و محدود نیست.
از طرفی این روش همپوشانی بین فایل ها رو جواب میده؟

لازم نیست از قبل بدونید بلکه هر وقت لازم شد شباهت را پیدا کنید لازمه 50 تا فایل را پردازش کنید تا اطلاعات مورد نظر استخراج بشه و همپوشانی هم در نظر می گیره