این مشکل در وب هم وجود داشت و سالار کابلی پروژه ای رو با اسم persianParser در گیت هاب دارد که همین کار رو انجام می دهد.
https://github.com/sallar/persianParser