PDA

View Full Version : سوال: خواندن فايل HTML با XDocument



ansherli
پنج شنبه 02 خرداد 1387, 09:40 صبح
سلام
من يه فايل HTML دارم كه بايد به فرمت XML بخونمش ولي موقع خوندن با كاراكترهاي خاص دچار Exception مي شم.!!!
اول كاراكترهايي رو كه مي شناختم از تو فايل حذف كردم ولي توي نسخه واقعي تعداد اونها از حد گذشت!!!
بعد با Microsoft.JScript.LenientGlobalObject.escape سعي كردم كاراكترها رو حذف كنم ولي چون ليست كاملي از اين كاراكترها ندارم در نتيجه مشكل حل نشد. يعني اين دستور كل HTML‌رو تبديل مي كنه كه ديگه قابل خوندن نيست!
من فايل HTML رو با دستور XDocument.load مي خونم.
لطفا راهنمايي كنيد.

bita_naz
پنج شنبه 02 خرداد 1387, 19:33 عصر
سلام
من يه فايل HTML دارم كه بايد به فرمت XML بخونمش ولي موقع خوندن با كاراكترهاي خاص دچار Exception مي شم.!!!
اول كاراكترهايي رو كه مي شناختم از تو فايل حذف كردم ولي توي نسخه واقعي تعداد اونها از حد گذشت!!!
بعد با Microsoft.JScript.LenientGlobalObject.escape سعي كردم كاراكترها رو حذف كنم ولي چون ليست كاملي از اين كاراكترها ندارم در نتيجه مشكل حل نشد. يعني اين دستور كل HTML‌رو تبديل مي كنه كه ديگه قابل خوندن نيست!
من فايل HTML رو با دستور XDocument.load مي خونم.
لطفا راهنمايي كنيد.

فکر کنم بهتره فایل HTML رو با متد ReadXml یه دیتا ست بخونی . ولی فایلت نباید مشکل داشته باشه . مثلا نباید هیچ تگ بسته نشده ای وجود داشته باشه.

علیرضا مداح
پنج شنبه 02 خرداد 1387, 21:38 عصر
سلام دوست عزیز
از کلاس System.Xml.XmlTextReader استفاده نمایید و یادتان باشد که پروپرتی Normalization مربوط به آن را بر روی True قرار دهید ، /

ansherli
سه شنبه 07 خرداد 1387, 13:09 عصر
باتشكر از دوستان به خاطر راهنمايي شون.
يه مثال خيلي خوب پيدا كردم كه فكر كنم ارزش ديدن رو داشته باشه.
http://www.codeproject.com/KB/cs/Generating_Word_Reports.aspx#BindingXMLToSchema