Учебная страница курса биоинформатики,
год поступления 2024
aa = amino acid resudues = аминокислотные остатки
Пояснения
1. Банк Uniprot (Uniprot.org) для всех белков с расшифрованной последовательностью aa хранит эту последовательность и краткую информацию о белке.
ОДИН белок закодирован в ОДНОМ гене ОДНОГО генома.
ОДИН геном человека — это геном ОДНОГО человека.
ОДИН геном бактерии — это геном одного штамма бактерии потому, что одна клетка бактерии равна одному "организму" но не представляет из себя индивидуальности. Смысл имеет только усреднённый геном совокупности близкородственных бактерий, т.е. штамма.
Информация об одном белке сохраняется в ОДНОЙ ЗАПИСИ банка данных Uniprot. Она включает:
- ИДЕНТИФИКАТОР ЗАПИСИ, сокращённо ID
- ВТОРОЙ идентификатор, т.н. "код доступа" = accession code, AC [поиском по любому из идентификаторов вы быстро найдёте запись в Uniprot]
- НАЗВАНИЕ БЕЛКА, DE
- Организм, из которого выделен белок или его ген, OS
- Полная таксономия организма, OC
- Последовательность белка в однобуквенном коде расположена в конце записи, SQ
2. ПРИМЕР фрагмента записи одного белка
ID TERT_ARATH Reviewed; 1123 AA. AC Q9SPU7; Q9SE99; DT 21-SEP-2011, integrated into UniProtKB/Swiss-Prot. DT 01-MAY-2000, sequence version 1. DT 24-JUL-2024, entry version 139. DE RecName: Full=Telomerase reverse transcriptase; DE Short=AtTERT; DE EC=2.7.7.49; GN Name=TERT; OrderedLocusNames=At5g16850; ORFNames=F5E19.190; OS Arabidopsis thaliana (Mouse-ear cress). OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; OC Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae; Pentapetalae; OC rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis. .................................................................... SQ SEQUENCE 1123 AA; 130580 MW; 5645B8295817B7F6 CRC64; MPRKPRHRVP EILWRLFGNR ARNLNDAIVD LIPNRNIQPE QCRCRGQGCL GCSSDKPAFL LRSDDPIHYR KLLHRCFVVL HEQTPPLLDF SPTSWWSQRE IVERIIEMMQ SGCDCQNVIC ARYDKYDQSS PILELLTSSS WEFLLKRVGH DVMVYLLQQT SIFLPLLGKK HQQVSGPPLC IKHKRTLSVH ENKRKRDDNV QPPTKRQWLS SAVDDCPKDD SATITPIVGE DVDQHREKKT TKRSRIYLKR RRKQRKVNFK KVDCNAPCIT PSTNGKVSTG NDEMNLHIGI NGSLTDFVKQ AKQVKRNKNF KFGLSETYSV IPPNHILKTL RPNCSDSKLL MNHIFGEVNV WSTTPSHGKG NCPSGSICLY HSLLKSLKNL IGKTKSSHLK MLLDKHCPVL LLQEDALKSG TTSQSSRRQK ADKLPHGSSS SQTGKPKCPS VEERKLYCTN DQVVSFIWAI CRYIVPESLL GTTHQMRVLR KNIAWFVSRR RNEKCTVNQF LHKVKPSDFP FFARKELCCM VNGHELQSES IRSTQQMLCT KWISWLFLEI VKKLVHFNFY ATESQGGRLN IYYYRKRSWE RLISKEISKA LDGYVLVDDA EAESSRKKLS KFRFLPKANG VRMVLDFSSS SRSQSLRDTH AVLKDIQLKE PDVLGSSVFD HDDFYRNLCP YLIHLRSQSG ELPPLYFVVA DVFKAFDSVD QGKLLHVIQS FLKDEYILNR CRLVCCGKRS NWVNKILVSS DKNSNFSRFT STVPYNALQS IVVDKGENHR VRKKDLMVWI GNMLKNNMLQ LDKSFYVQIA GIPQGHRLSS LLCCFYYGHL ERTLIYPFLE EASKDVSSKE CSREEELIIP TSYKLLRFID DYLFVSTSRD QASSFYHRLK HGFKDYNCFM NETKFCINFE DKEEHRCSSN RMFVGDNGVP FVRWTGLLIN SRTFEVQVDY TRYLSGHISS TFSVAWQNKP VRNLRQKLCY FLVPKCHPIL FDSNINSGEI VRLNIYQIFL LAAMKFHCYV YEVSRFWKLH PQTLFKFITI SVRYMFRLIN RRVRRINTGS SFRPVLKLYK EEVIWLGLDA YIQVLKKKNS RYRMLLIYLK SALSKH