PDA

View Full Version : سوال: مشکل در استخراج متن از doc



niloofar13
سه شنبه 14 مرداد 1393, 13:17 عصر
سلام من برنامه ای دارم که فایلهای متنی با فرمتهای مختلف مثل txt,doc,,docx را می گیره و متن آنها را استخراج می کنه و بعد با استفاده از عبارات باقاعده مثلا افعال را در رشته جستجو می کند و عملیاتی را انجام می دهد. مشکل من با فایلهای doc است وقتی متنی از نوع doc را می خونه و در رشته میریزه متن در رشته به هم ریخته است و همین باعث میشه نتونه درست کار کنه. خیلی تو اینترنت سرچ کردم ولی چیزی پیدا نکردم. حتی تلاش کردم فایل doc را به txt تبدیل کنم و بعد عملیات روش انجام بدم ولی چون می خوام حتی اگه آفیس روی سیستم کاربر نصب هم نبود برنامه درست کار کنه, نمی خوام از ابزار word خود c# استفاده کنم مولفه های دیگه هم خریدنی هستند. لطفا اگه کسی میتونه بهم کمک کنه الان دو روزه کل وقتمو گذاشتم روی این موضوع آخرش هم هیچ

hamid_hr
سه شنبه 14 مرداد 1393, 13:40 عصر
http://barnamenevis.org/showthread.php?451635-%D8%A2%D9%86%D8%A7%D9%84%DB%8C%D8%B2-%D9%81%D8%A7%DB%8C%D9%84-word&highlight=word