View Full Version : PDF/Word Indexing
ghabil
شنبه 05 اسفند 1385, 09:41 صبح
سلام
کسی Enginی برای PDF/Word Indexing سراغ داره ؟
دیگه Open Source باشه که آخرشه:لبخند:
yashar666
شنبه 05 اسفند 1385, 21:52 عصر
عزیزم هنوز همچین برنامه ای وجود نداره تو سورس اونم میخوای!
ghabil
شنبه 05 اسفند 1385, 22:46 عصر
مثلا تا حالا اتفاقی به Google Desktop یا سرچ انجین گوگل دقت کردی؟
پ.ت : دوست عزیز میدونی همین صادق هدایت آخرش خودش رو از دست کیا کشت ؟
ضمنا درستش هم اینه : "در زندگی زخمهایی هست که مثل خوره روح را آهسته در انزوا می خورد و می تراشد."
مهدی کرامتی
یک شنبه 06 اسفند 1385, 07:54 صبح
فکر میکنم چیزی بنام Lucent یا Lucene برای اینکار وجود داره، Open Source نیز هست.
ghabil
یک شنبه 06 اسفند 1385, 10:53 صبح
آقا ممنون بسیار چیز جالبی بود ، البته حالا فعلا یک مقداری باید بیشتر Documentهاش رو بخونم امابرای استفاده کسانی که بعدا ممکنه بخوان استفاده کنند :
Lucene (http://lucene.apache.org) از محصولات Open Source متعلق به Apache که یک Indexer و و جستجوگر متنی هست، بیشترین مانوری هم که در توضیحات خوش داره در مورد بهینه بودن الگوریتمهای ایندکسینگ و جستجوش هست.
متاسفانه تماما با جاوا پیاده سازی شده اما :
MUTIS (http://sourceforge.net/projects/mutis) پیاده سازی LUCENE با دلفی هست . که هم برای دلفی 32 هم دات نت با سورس موجود هست.
نکته جالب دیگه اینکه به زبانهای دیگه (http://wiki.apache.org/jakarta-lucene/LuceneImplementations)هم پیاد سازی شده .
فعلا چیزی در مورد اینکه چقدر ممکنه با فارسی مشکل داشته باشه ایده ای ندارم ، اما چون OpenSource هست و با جاوا پیاده سازی شده (که یونیکد ساپورت هست) احتمالا برای منابع فارسی هم قابل استفاده هست.
vcldeveloper
دوشنبه 07 اسفند 1385, 01:43 صبح
دقیقا نمیدونم برای چه منظوری به همچین موتوری نیاز دارید، ولی می تونید از خود Google Desktop یا Windows Desktop Search هم به عنوان موتور Indexing استفاده کنید. هر دو API هایی در اختیار میزارند که میشه از طریق اونها به سرویس های ارائه شده دسترسی داشت و query های مختلفی گرفت. Windows Desktop Search از Indexing Service ویندوز استفاده میکنه و با پیاده سازی IFilter هم میشه فرمت های مختلفی رو به Indexer اون شناسوند. در ویستا هم بصورت built-in پشتیبانی میشه.
ghabil
دوشنبه 07 اسفند 1385, 13:53 عصر
ممنون، کاری که من میخوام بکنم مقدار زیادیش بر میگرده به ایندکس کردن منابعی که توی SQL Server هستند ، برای همین نمیتونم زیاد از یک برنامه آماده استفاده کنم بیشتر نیاز دارم به پلت فرمی که بتونم از الگوریتمهاش استفاده بکنم ، ضمنا GoogleDesktop و Indexing ویندوز تاجایی که من میدونم خیلی ابتدایی هستند اما من نیاز به چیزی مثل همین MUTIS داشتم که بتونم از طریقشون مفاهیمی مثل جستجوی Near یا پاراگراف یا صفحه یا ... رو پشتیبانی کنم ، همینطور تعریف StopWord ها و Tokenها که خوشبختانه کاملا اینهارو پشتیبانی کرده و حتی امکان تعریف Charset رو هم داده.
البته هنوز چیزی توش برای ایندکس کردن قالب خاص مثل PDF یا World پیدا نکردم اما راهی که پلتفرمش مطرح میکنه اینه که باید دیکودرهایی نوشت که هر فرمتی رو به Text تبدیل کنیم و بعد خودش تمام استاندارهای لازم روی Text رو پشتیبانی میکنه که با توجه به موجود بودن Interface های نرم افزارهایی مثل ورد و آکروبات زیاد کارسختی بنظر نمی آد.
dkhatibi
دوشنبه 07 اسفند 1385, 14:20 عصر
البته هنوز چیزی توش برای ایندکس کردن قالب خاص مثل PDF یا World پیدا نکردم اما راهی که پلتفرمش مطرح میکنه اینه که باید دیکودرهایی نوشت که هر فرمتی رو به Text تبدیل کنیم و بعد خودش تمام استاندارهای لازم روی Text رو پشتیبانی میکنه که با توجه به موجود بودن Interface های نرم افزارهایی مثل ورد و آکروبات زیاد کارسختی بنظر نمی آد.
برای PDF و خصوصا نوع فارسیش هم کار سختی نیست؟ ابزار؟
ghabil
دوشنبه 07 اسفند 1385, 21:04 عصر
با SDK ادابی (http://www.adobe.com/devnet/acrobat/)من که هیچ مشکلی نداشتم ، خیلی هم کار کردم باهاش.
البته دانلودش مجانی نیست اما من زنگ زدم آبی کامپیوتر با 5-6 تومن برام فرستادنش، ضمنا من با قدیمیهاش کار کردم فکر کنم 6.
carbon
جمعه 05 مهر 1387, 16:20 عصر
سلام
می دونم خیلی وقته که این پست انجام شده و به سر و سامون رسیده. ولی اگه کسی صدای منو میشنوه این mutis در دلفی 7 هم قابل استفادس یا نه؟ من سعی کردم ولی error میده :
Error in module Mutis : REQUIRES clause is incorrect
چه باید کرد؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟
ghabil
شنبه 06 مهر 1387, 10:57 صبح
کار که میکنه خطایی هم که میگیری فکر میکنم خطای موتور لوسن هست به دلفی ربطی نداره.
باید بشینی با دقت داکیومنتش رو بخونی تا دستورات جستجو رو درست بنویسی
carbon
یک شنبه 07 مهر 1387, 15:58 عصر
کار که میکنه خطایی هم که میگیری فکر میکنم خطای موتور لوسن هست به دلفی ربطی نداره.
باید بشینی با دقت داکیومنتش رو بخونی تا دستورات جستجو رو درست بنویسی
نه منظور من از اون error این نبود.
من وقتی فایل package ش رو که اسمش هم Mutis.dpk هست اجرا می کنم تو دلفی واسه نصب اون error رو میده. داخل شاخه AnyNETDelphi هم یه فایل package هست که اونم همون خطایی رو که گفتم میده. یعنی هنوز موفق به نصبش نشدم که از موتورش error بگیرم.
در ضمن داکیومنتش همراهش نبود وقتی دانلود کردم. ولی یه AnyNETDelphi کنارش بود. در این مورد هم راهنمایی کنید ممنون میشم.
vBulletin® v4.2.5, Copyright ©2000-1404, Jelsoft Enterprises Ltd.