ورود

View Full Version : HTML Parsing



masoud_urmia
یک شنبه 08 تیر 1393, 18:20 عصر
سلام دوستان
من تو نرم افزارم بعد از دریافت یک صفحه وب به صورت HTML شروع به جست و جو تو HTML می کنم و داده های مورد نظرم رو جمع می کنم ولی یه مشکلی هست موقعی که سایت رو به صورت عادی تو مرورگر بارگذاری میکنم جملات فارسی درست نشون داده می شن ولی موقعی که HTML صفحه رو دریافت می کنم جملات فارسی به صورت زیر نمایش داده میشن

������ ��ʐ� :: ����:( 17:45 �� 19:15 ) � ����:( 202 ) � �����:( ����� �� ) ������:( 14:15 �� 15:45 ) � ����:( 202 ) � �����:( ����� ��

متن بالا معادل با این جمله هست :

برنامه هفتگي :: شنبه:( 17:45 تا 19:15 ) ، كلاس:( 202 ) ، استاد:( خليلي فر )
دوشنبه:( 14:15 تا 15:45 ) ، كلاس:( 202 ) ، استاد:( خليلي فر )

می خواستم بدونم از متن بالا رو چطور دیکود کنم ؟؟؟

rubiks.kde
یک شنبه 08 تیر 1393, 19:00 عصر
متن رو چطوری دریافت میکنید؟از کتابخانه خاصی استفاده میکنید؟
اگر تمایل به pars کردن html رو دارید بجایی اینکه دستی این کار رو بکنید پیشنهاد میکنم از jsoup استفاده کنید

masoud_urmia
یک شنبه 08 تیر 1393, 22:33 عصر
سلام منم دقیقا از jsoup استفاده می کنم و متن به هم ریخته هم از نوع UTF-8 هست حالا موندم اینو چطوری فارسی کنم

rubiks.kde
یک شنبه 08 تیر 1393, 22:46 عصر
کد خودتون رو قرار بدید.

قبلش به این صورت استفاده کنید ببینید درست میشه یا نه :

String url = "http://www.google.com/";
Document document = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);

masoud_urmia
یک شنبه 08 تیر 1393, 23:37 عصر
کد خودتون رو قرار بدید.

قبلش به این صورت استفاده کنید ببینید درست میشه یا نه :

String url = "http://www.google.com/";
Document document = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);

متشکرم حل شد