نمایش نتایج 1 تا 12 از 12

نام تاپیک: جستجو در 10000فایل متنی؟

  1. #1

    Lightbulb جستجو در 10000فایل متنی؟

    سلام دوستان
    موضوع پروژه کارشناسی من word clustering است.من برای اینکار یک مجموعه اطلاعات دارم که باید روی انها کار کنم.من 9دسته موضوع مثل اجتماعی ،ورزشی و... دارم که هر کدام از دسته ها دارای 1000 سند متنی txt می باشد.یعنی مجموعا با 9000 فایل متنی رو به رو هستم که باید برای کلمات مشخصی که باید کلاستر شوند ،روی این سندها جستجو انجام بدم.
    مثلا کلمه فوتبال :باید ببینم که در این مجموعه سند چندتای آن شامل کلمه فوتبال است.
    البته باید جستجوهای 2 تایی نیز داشته باشم،مثلا فوتبال and توپ و...
    می خواهم بدانم به نظرشما،همین طور روی فایل ها سرچ کنم بهتر است یا اینکه به SQL منتقل کنم؟
    اگر بخواهم به SQLمنتقل کنم چطور باید انجام بدهم؟
    چه کار هایی انجام دهم تا سرعت این برنامه زیاد تر بشه؟

  2. #2
    کاربر دائمی آواتار sobaisobai
    تاریخ عضویت
    آذر 1388
    محل زندگی
    Tehran
    پست
    490

    نقل قول: جستجو در 10000فایل متنی؟

    سلام
    ب نطر من فایل بهتره
    لینک زبر رو نگاه بنداز
    https://barnamenevis.org/showthread.p...A7%DA%A9%D8%B3

  3. #3

    نقل قول: جستجو در 10000فایل متنی؟

    نقل قول نوشته شده توسط sobaisobai مشاهده تاپیک
    سلام
    ب نطر من فایل بهتره
    لینک زبر رو نگاه بنداز
    https://barnamenevis.org/showthread.p...A7%DA%A9%D8%B3
    اینجا بیشتر بحث داده کاوی مطرحه و چیزی بیشتر از جستجو در تکتباکس نیاز داریم.
    به نظر من بهتره از ساختار XML استفاده کنیم مثلا ساختاری شبیه زیر:
    <Root>
    <Sports label="ورزش، تربيت بدني">
    <Topic1 label="قطبي ، دايي، استيلي، فوتبال، توپ">
    <!--متن ورزشي شماره يک-->
    </Topic1 >
    <Topic2 label="شطرنج، احسان قائم مقامي، وزير، کيش">
    <!--متن ورزشي شماره دو-->
    </Topic2 >
    ........
    ......
    </Sports>
    <social label="اجتماعي، هنجار">
    <Topic1>
    <!--متن اجتماعي شماره يک-->
    </Topic1>
    </social>
    </Root>

    اون 1000 فایل ورزشی به صورت 1000 رکورد XML در می آیند و با دستورات LINQ TO XML در سی شارپ به راحتی می توانید جستجوی مورد نظر را انجام دهید.
    آخرین ویرایش به وسیله سوداگر : سه شنبه 06 دی 1390 در 21:32 عصر دلیل: Label

  4. #4
    کاربر دائمی آواتار sobaisobai
    تاریخ عضویت
    آذر 1388
    محل زندگی
    Tehran
    پست
    490

    نقل قول: جستجو در 10000فایل متنی؟

    نقل قول نوشته شده توسط Dezfoul مشاهده تاپیک
    اینجا بیشتر بحث داده کاوی مطرحه و چیزی بیشتر از جستجو در تکتباکس نیاز داریم.
    به نظر من بهتره از ساختار XML استفاده کنیم مثلا ساختاری شبیه زیر:
    <Root>
    <Sports>
    <Topic1>
    <!--متن ورزشي شماره يک-->
    </Topic1>
    <Topic2>
    <!--متن ورزشي شماره دو-->
    </Topic2>
    ........
    ......
    </Sports>
    <social>
    <Topic1>
    <!--متن اجتماعي شماره يک-->
    </Topic1>
    </social>
    </Root>

    اون 1000 فایل ورزشی به صورت 1000 رکورد XML در می آیند و با دستورات LINQ TO XML در سی شارپ به راحتی می توانید جستجوی مورد نظر را انجام دهید.
    سرعت XML بیشتره یا SQL ؟

  5. #5

    نقل قول: جستجو در 10000فایل متنی؟

    بستگی به شرایط داره ولی در اکثر موارد XML

  6. #6

    نقل قول: جستجو در 10000فایل متنی؟

    نقل قول نوشته شده توسط Dezfoul مشاهده تاپیک
    بستگی به شرایط داره ولی در اکثر موارد XML
    برای اطلاعات کم (مثلا 100 رکورد) ممکن است سرعت xml بیشتر باشد ولی در حجم بالای اطلاعات سرعت خواندن اطلاعات از xml اصلا قابل قیاس با sql نیست. sql بسیار سریعتر است :
    XML is not a database
    XML vs SQL for small projects?

  7. #7
    کاربر دائمی آواتار in_chand_nafar
    تاریخ عضویت
    اردیبهشت 1389
    محل زندگی
    www.NikAmooz.com
    پست
    466

    نقل قول: جستجو در 10000فایل متنی؟

    جستجو در فايل هاي متني را مي توانيد با استفاده از ابزاري به نام Lucene.NET استفاده كنيد (يه بررسي كن ببين به كارت مياد يا نه اگر نه يه راه حل ديگه هم به نظرم مي رسه كه اون رو بهت معرفي كنم)
    http://www.aliaghdam.ir/2011/02/lucenenet.html
    http://www.aliaghdam.ir/2011/02/lucenenet_02.html

    http://www.30sharp.com/article/4/222...%88%D9%84.aspx

    http://www.30sharp.com/article/4/229...%88%D9%85.aspx

    http://www.30sharp.com/article/4/230...%88%D9%85.aspx

    http://www.30sharp.com/article/4/235...%B1%D9%85.aspx

  8. #8

    نقل قول: جستجو در 10000فایل متنی؟

    XML is not a database
    چه جالب


    اینم آدرس خریدش

    از قیاسش خنده آمد خلق را
    کو چو خود پنداشت صاحب دلق را
    معنی: چون به اکسس و اس کیو ال و ... عادت کردیم فکر می کنیم XML نمیتونه پایگاه داده باشه!
    آخرین ویرایش به وسیله سوداگر : سه شنبه 06 دی 1390 در 23:39 عصر

  9. #9

    نقل قول: جستجو در 10000فایل متنی؟

    بستگی به شرایط داره ولی در اکثر موارد XML
    کجای این کتاب گفته که xml سریعتر از sql است؟

    آنطور که من از خلاصه کتاب فهمیدم، در مورد استفاده بهتر از xml به عنوان بانک اطلاعاتی است.

    در ضمن نمی دانم چرا لحن بعضی جوابها تند است. بالاخره اینجا محلی برای یادگیری است و داریم روی موضوعی بحث می کنیم که اگر دوستانه تر باشد، بهتر است.

  10. #10

    نقل قول: جستجو در 10000فایل متنی؟

    این کتاب نگفته کدوم سریعتره، همون که شما فهمیدید درسته -->در مورد استفاده ی بهتر، از xml به عنوان بانک اطلاعاتی است.
    من فقط میخواستم بگم با XML هم دیتابیس میشه درست کرد چون شما فرمودید: XML is not a database من این کتاب رو گذاشتم تا بگم اتفاقا XML is a database
    البته پدر آدم در میاد تا خودش پایگاه رو مدیریت کنه!
    /* این تاپیک در مورد جستجو و کلاستر کردن تعدادی متن بود، من اون پست رو در جواب جناب sobaisobai دادم لطفا پست ها رو باهم قاطی نکنید*/

  11. #11

    نقل قول: جستجو در 10000فایل متنی؟

    دوستان از جواب ها تون ممنون
    اما من برای هر فایل و برای هر کلمه فایل باید روی کل سند ها جستجو بزنم و انتقال خود انها به xml یک کار وقت گیر دیگر است.
    دوستان نظر دیگری ندارید؟

  12. #12

    نقل قول: جستجو در 10000فایل متنی؟

    انتقال خود انها به xml یک کار وقت گیر دیگر است.
    مگه انتقال اونها به SQL وقت گیر نیست؟!
    البته من خیال کردم شما می خواهید به صورت هوشمند، موضوعات را طبقه بندی کنید که گفتم XML. اگر اینطور هست که شما باید یه تحقیق مختصر در مورد وب معنایی انجام بدین.
    اما مثل اینکه می خواهید برنامه ای مثل google Desktop بسازید؟درسته؟

قوانین ایجاد تاپیک در تالار

  • شما نمی توانید تاپیک جدید ایجاد کنید
  • شما نمی توانید به تاپیک ها پاسخ دهید
  • شما نمی توانید ضمیمه ارسال کنید
  • شما نمی توانید پاسخ هایتان را ویرایش کنید
  •