PDA

View Full Version : سیستم جستجوی متون فارسی مستقل از حجم



فؤاد
پنج شنبه 06 اسفند 1383, 13:56 عصر
با سلام / جستجو در متون فارسی آن هم مستقل از هم یکی از مواردی هست که کمتر به آنها به طور تخصصی پرداخته شده و عموم دوستان توی این مورد کمتر تجربه مفید دارن / چند سالی هست که دنبال آماده سازی سامانه جستجوگر برای متون فارسی که مستقل از حجم عمل کنه هستم / از دوستانی که میخوان همراهی کنن و یا اینکه ما رو در این مسیر راهنمایی و .... کنند میخام که موافقت خودشون اعلام کنن

همین.

با تشکر / فواد

AminSobati
جمعه 07 اسفند 1383, 20:16 عصر
فواد جان ممکنه در مورد کاری که قصدش رو داری کمی شرح بدی..

فؤاد
شنبه 08 اسفند 1383, 00:21 صبح
با سلام

راستش با اینکه برنامه نویس حرفه ای زیاد داریم ولی یه سری موضوعات هست که هنوز کسی توش به صورت کامل و جامع کار نکرده / من خودم نزدیک 2 سال هست که از مدعیان مختلف عرصه نرم افزار درباره جستجو در متون سنگین سوال کرده ام ولی کسی نبوده که روش کامل و بی نقصی و بهینه ای داشته باشه که تمام نیازهای یه سیستم جستجو رو شامل باشه

مثال جستجوی سریع / کلمات مشابه / همخانواده / هم معنی / مستقل از حجم / مستقل از اعراب / فیلتر کردن / دامنه جستجو / ترکیبهای مختلف/ عطفی / فصلی / نفی و ....

همین / فواد

AminSobati
شنبه 08 اسفند 1383, 09:43 صبح
دوست عزیزم،
Full Text Search در SQL Server قابلیتهای زیادی در جستجو بروی متون انگلیسی داره و این اجازه رو به شما میده که FTS رو برای زبان دلخواه خودتون Customize کنین. مثلا ترکیبات مختلف برای زبان انگلیسی در ابتدا در FTS قرار داده شده اما برای زبان فارسی نه. لذا اگر روی Customize کردن FTS وقت بزارید، ارزش بیشتری داره.
از طرفی، صرفا انجام جستجو مهم نیست، بلکه سرعت اون بسیار حائز اهمیته. فکر نمیکنم قصد داشته باشید یک Search Engine بنویسید که از FTS سریعتر باشه!! چون قطعا امکان پذیر نیست. پس تلاش برای افزایش امکانات FTS روی زبان فارسی از هر حیث بهتره. اگر در این زمینه کمکی از دستم ساخته باشه حتما در خدمتم.
موفق باشید

فؤاد
شنبه 08 اسفند 1383, 10:58 صبح
با سلام و تشکر / من هم دقیقا همین مسئله مد نظرم بود / یعنی برای زبان مظلوم فارسی یه کاری کنیم وگرنه برای زبونای فرنگی که مشکلی نیست / با این حال از شما و دیگر دوستان علاقه مند میخام که اعلام آمادگی کنند / با تشکر

مهدی کرامتی
یک شنبه 26 تیر 1384, 14:59 عصر
FTS رو چطور میشه برای زبان فارسی Customize کرد؟

بابک زواری
یک شنبه 26 تیر 1384, 18:22 عصر
آیا SQL Server این FTS رو در اختیار کاربر قرار میده ؟ چطوری و آیا این سیستم رو در نسخه جدیدش هم در اختیار داریم؟

AminSobati
دوشنبه 27 تیر 1384, 10:35 صبح
سرویس FTS منحصر به SQL Server نیست و در حقیقت SQL Server یکی از نرم افزارهایی هستش که از اون استفاده میکنه.
برای Customize کردن، شاید این لینکها نقطه خوبی برای شروع باشند اگر چه شخصا روی این موضوع کار نکردم:
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/indexsrv/html/wbrscenario_4ckl.asp?frame=true

http://www.microsoft.com/middleeast/arabicdev/beta/search/

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnsql2k/html/sql_arabicsupport.asp

titbasoft
دوشنبه 27 تیر 1384, 13:07 عصر
سرویس FTS منحصر به SQL Server نیست و در حقیقت SQL Server یکی از نرم افزارهایی هستش که از اون استفاده میکنه
یعنی FTS از Indexing Service استفاده می کنه ؟ (عطف به لینک اول شما) یا اصلا این دو تا به هم مربوط هستند ؟
(سوالم جنبه استفهام انکاری نداره)

AminSobati
دوشنبه 27 تیر 1384, 20:55 عصر
بله هاشم جان، Full-Text Indexing همچنین به Exchange Server هم سرویس میده..

javad_hosseiny
سه شنبه 28 تیر 1384, 10:41 صبح
البته خودتون هم می تونید همچین سرویس طراحی کنید (بستگی به زبان برنامه نویسی اتان دارد)
من قدیم ها (حدود 5 سال پیش) الگوریتمی مشابه سرویس fts که از قابلیت indexing استفاده می کرد برنامه نرم افزاری در محیط داس طراحی کردم که کارش سرچ بر روی اطلاعات مختلف (فیش، متن و...) بود و دارای سرعت بالایی بود
نرم افزار به سفارش یکی از مراکز حوزوی قم بود که حدود 580 مگابایت اطلاعات را بصورت نرم افزار معجم می خواستند با قابلیت های جستجوی ساده، ترکیبی، همخانواده ها، مستقل از اعراب ، جستجوی نقیض و تعیین دامنه بر روی متون قابل سرچ و ... و در نهایت خوب بود (سرعت جستجو در تک کلمه ها بدون معطلی (صفر ثانیه) و در جستجو های ترکیبی (and or xor , ...) بستگی به تعداد کلمات عبارت جستجو بین 3 تا 10 ثانیه (بر روی یک سیستم پنتیوم 2 ) بود
و همه این قابلیت ها مدیون کار indexing (لیست گیری کلمات بصورت غیرتکراری) و ایجاد عملیات کدینگ بر روی متن و ذخیره آن بصورت فشرده و انجام عملیات جستجو بر روی آنها بود (خروجی متون حدود 60مگابایت بود)

titbasoft
سه شنبه 28 تیر 1384, 15:38 عصر
من خیلی صاحب نظر نیستم ولی صاحب نظرها میگن : buy it don't build it
دلایلش هم پر واضحه
تازه ما که پول هم لازم نیست بدیم.

در ضمن جناب ثباتی برای من که الان درگیر یک کار جستجوی متن هستم ، اونهم از نوع فارسی ، مقاله های بسیار جالبی بود. هنوز فرصت نکردم بجر تاپیک هاش چیز دیگه ای رو مطالعه کنم ولی حتما خیلی کمکم خواهد کرد. از لطفتون ممنونم.

hosein.jozi
یک شنبه 10 اردیبهشت 1385, 16:14 عصر
آخر بحث چی شد
جستجو بدون در نظر گرفتن اعراب چگونه است؟

titbasoft
یک شنبه 10 اردیبهشت 1385, 18:38 عصر
توی 2000 فقط در نظر گرفتن 2 نسخه از متن.

hosein.jozi
دوشنبه 11 اردیبهشت 1385, 11:09 صبح
ایجاد یک تابع برای ایجاد لیست غیر تکراری کلمات و ساختن کلمات بدون اعراب آنها و
استفاده از آن در جستجو بهتر است