سلام محمد جان

من کدی که شما قرار دادید رو برای جدا کردن کلمات فارسی بکار بردم اما علاوه بر کلمات فارسی کارکتر ها لاتین و علائم < و > / و _ - و * رو هم جدا کرد
words=preg_split("#^[\s\x{0621}-\x{063A}\x{0640}-\x{0691}\x{0698}-\x{06D2}\x{06F0}-\x{06F9}\x{0661}-\x{0669}0-9\n\r]+$#u","$string");



من میخوام محتوای یه فایل html رو پس از بازکردن توی برنامه فقط کلمات فارسی رو جدا کنه هیچگونه کارکتر غیر فارسی توی برنامه نباشه


یا صلا اگر هم قرار کلمه لاتینی توی برنامه باشه فقط کلمات مربوط به متن باشه نه حروف و یا کارکتر های مربوط به تگ های html مثلا td یا tr یا div یا textarea اینها کارکتر های لاتین هستن اما مربوط به تگ های اچ تی ام ال هستند

برای مثال ما جمله زیر رو داریم و میخوایم

<br>
سلام بچه ها
لطفا نام خود را در فیلد زیر وارد کنید
<br />
<input type='text' id='name'>d

رشته مورد نظر ما

سلام بچه ها لطفا نام خود را در فیلد زیر وارد کنید