ببینید ورودی من حالتهای مختلفی می تونه داشته باشه که
1- یه قسمت داده که معمولا عدد هست یا تلفیق عدد و حروف id رکورد داده هست و من رنگی کردم اونها رو-
اطلاعات بین سه | | | تای اولی را بردارید که معمولا کد و اسم ژنها ر-(چندین رکورد در یک فایل تکرار میشه) که اصولا با یه کاراکتر جدا کننده مثلا | جدا میشه
2- یه قسمتش یه سری متن انگلیسیه که اون توضیحاته
و3- یه قسمت که تکرار 4 حرف acgt هستش ،اصل داده منه
اما همون جور که گفتم چند نوع فرمت مختلف داره که میخوام نوشتنشون رو یاد بگیرم
مثلا یکیش همون فایلی هست که بالا گذاشتم
یکی دیگه اش
>gi|208436385|gb|FJ217161.1| Bundibugyo ebolavirus, complete genome
CGGACACACAAAAAGAATG
>A/California/VRDL92/2009|CY063107|4|HA|A|H1N1|10/17/2009|09_10|USA|Human|Y|AdmantaneResistance_Yes|Ose ltamivirResistance_No|IncreasedVirulence_No|Enhanc edTransmission_Yes|T92E_No|No
ATGAAGGCAATACTAGTAGTTC
داخل هر فایل هم چند تا از اینها میتونه باشه که وقتی به علامت < رسید یعنی یه رکورد دیگه شروع شده
>CY080801
ATGAAAGTAAAACTACTGGTCCTGTTA
انواع دیگه ای هم داره، که من باید همشون رو پیش بینی کنم
اگه میشه بهم یاد بدید چطوری باید بنویسمشون
خیلی ممنون که به سوالم توجه کردید