PDA

View Full Version : نحوه ایندکس کردن فایل های pdf



mtaboy
جمعه 13 شهریور 1388, 16:34 عصر
سلام..
من چند وقتی هست می خوام یه سرچ انجینی بنویسم که با اون بتونم داخل فایل pdf جستجو انجام بدم...
برنامه ای که یک فایل pdf باز کنه و بعد توی اون عبارت مورد نظر من رو پیدا کنه بدرد نمی خوره چون شما در نظر بگیر در دایرکتوری مورد نظر من بالا 10 هزار کتاب باشه پس می بینیم که جستجو کردن تک تک اونا کاملا دور از منطق هست....
تو تحقیقاتی که کردم به ایندکس کردن رسیدم یعنی موقعی که مثلا فایل رو تو دایرکتوری مورد نظر آپلود می کنیم اون برنامه ما بتونه تمام کلمات و مشخصات اونا رو بخونه و جایی برا خودش ذخیره کنه...تو اینتر نت به این سرچ انجین رسیدم
http://www.searcharoo.net/SearcharooV4/

که بزرگترین مشکل اون زمان زیادی هست که موقع ایندکس فایل تلف میکنه ....دوستان اگر مورد دیگه برای این کار سراغ دارن یا اینکه در زمینه استفاده از این سرچ انجین که بالا نوشتم لف کنن راهنمایی کنند...

milade
جمعه 13 شهریور 1388, 20:42 عصر
سلام
این کارها لازم نیست .
از FTS درSQL استفاده کنید .
تحقیق کنید .

موفق باشید

mtaboy
شنبه 14 شهریور 1388, 01:32 صبح
میشه برای شروع یک توضیح کوچیک بدید ممنون می شم

vcldeveloper
شنبه 14 شهریور 1388, 03:30 صبح
یک راه این هست که از Indexing Service خودِ ویندوز استفاده کنید. البته برای اینکه بتونید یک فرمت خاص از فایل را با استفاده از Indexing Service ایندکس کنید، نیاز به این دارید که یک فیلتر خاص بر اساس IFilter برای آن فرمت مشخص روی سیستم کاربر نصب شده باشه.

این فیلتر را یا خودتان باید با توجه به ساختار داخلی فرمت فایلی مورد نظر بنویسید، یا از فیلترهای شرکت های دیگه برای این منظور استفاده کنید.

اگر درباره همین عبارات لاتین این پست تحقیق کنید، می تونید اطلاعات بیشتری در این زمینه به دست بیارید.


این کارها لازم نیست .
از FTS درSQL استفاده کنید .
FTS چه ربطی به سوال این بنده خدا داره؟!! شما اینجا صحبتی از بانک می بینید؟ فرضا اگر هم بانک اطلاعاتی بود، FTS چطور می خواست داده باینری را ایندکس کنه؟!