PDA

View Full Version : پايگاه داده لغات فارسي



breeze
یک شنبه 15 اسفند 1389, 15:17 عصر
سلام
من براي پروژه ام به مجموعه لغات فارسي نياز دارم. مي شه يه سايت معرفي كنين كه كلمات فرهنگ لغات فارسي را در فايل doc داشته باشه ؟
من يه برنامه نوشتم كه براي متن ورودي كلمات متداولشو با حذف كلمات تكراري ذخيره مي كنه اما من به همه كلمات متداول فارسي بدون وابستگي به متن نياز دارم . از كجا مي تونم متن هاي مختلف رو بدون وابستگي به موضوع پيدا كنم؟
سايتي هست كه متن روزنامه ها در فرمت doc داشته باشه؟

aminfarajian
سه شنبه 24 اسفند 1389, 19:23 عصر
سلام
شما برای این کار میتونید از پیکره همشهری که از آدرس زیر قابل دسترسیه استفاده کنید. این پیکره مجموعه اخبار روزنامه همشهری از سال 1996 تا 2007 رو جمع آوری کرده و میتونه منبع خوبی برای پردازش متون فارسی باشه. با یک پردازش ساده میتونید کلمات استفاده شده در این مجموعه به همراه تعداد تکرار اونها رو استخراج کنید.
http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html
برای استفاده از این پیکره، بعد از اینکه دانلودش کردید باید یک ایمیل به آقای آل احمد بزنید و پسورد فایل رو از ایشون دریافت کنید. راهنمایی بیشتر در خود سایت موجوده.

موفق باشید

breeze
سه شنبه 24 اسفند 1389, 20:50 عصر
خیلی ممنون از راهنماییتون. لطف کردین

aminfarajian
چهارشنبه 25 اسفند 1389, 00:24 صبح
خواهش میکنم. راستی یه نکته رو فراموش کردم یادآوری کنم.
دقت کنین که به دلیل نسبتا غنی بودن زبان فارسی از لحاظ صرفی، ممکنه شما با مشکلاتی برخورد کنین به این ترتیب که ممکنه کلمه ای رو مثل «رفت» رو مشاهده کرده باشین اما مثلا «رفته اید» رو نتونید توی پیکره مشاهده کنید که این میتونه مشکل ساز بشه. در اینجا نیاز به یک تحلیلگر صرفی خواهید داشت که متاسفانه هنوز یه کار خوب که به صورت آزاد در اختیار عموم باشه، انجام نشده. نه اینکه نباشه، کارهای خوبی وجود داره اما متاسفانه بصورت آزاد در اختیار عموم نیست.
بنابراین شما ناچارید که از ابزارهای موجود استفاده کرده و یک پس پردازش روی خروجی اونها انجام بدید که کار زمانبریه. در هر صورت اگه سوالی در این مورد داشتید خوشحال میشم که بتونم کمکتون کنم.

موفق باشید. خدانگهدار

love_mjkh
شنبه 06 فروردین 1390, 01:30 صبح
باعرض سلام خدمت دوستان
دنبال یک پایگاه داده فرهنگ لغت فارسی هستم جهت ایجاد لغت نامه فارسی؟

abasfar
پنج شنبه 09 شهریور 1391, 14:17 عصر
دوستان حالا این لغات در دسترس عموم نیست پس دسترس کدام اورگان دولتی هست ؟