Поиск гомологов белка MAA_ECOLI (P77791) в геноме Pasteurella multocidaДля поиска гомологов была выбрана программа tblastn (поиск гомологов белка в неаннотированных нуклеотидных последовательностях).Были использованы следующие команды: formatdb -i pm_genome.fasta -n pm -p F blastall -p tblastn -d pm -i p77791.fasta -e 0.001 > p77791.outи получен файл p77791.out
Нахождение записи EMBL по последовательности с помощью программы BLASTNПолученная нами геномная последовательность была вырезана в файл ae006146.fastaДалее был запущен поиск этой последовательности в банке "EMBL standard prokaryote". Лучшая находка - AE004439 (совпадение 100%). >>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome. (2257487 nt) rev-comp initn: 2715 init1: 2715 opt: 2715 Z-score: 2179.9 bits: 421.3 E(): 3.3e-115 banded Smith-Waterman score: 2715; 100.0% identity (100.0% similar) in 543 nt overlap (543-1:1244564-1245106) 540 530 520 AE006- TACTTTACATGGATTGCCCACGGCTACACA :::::::::::::::::::::::::::::: EM_PRO CTCTCGGTCCTGCGGGCTAATCATTCGTTGTACTTTACATGGATTGCCCACGGCTACACA 1244540 1244550 1244560 1244570 1244580 1244590 510 500 490 480 470 460 AE006- ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT 1244600 1244610 1244620 1244630 1244640 1244650 450 440 430 420 410 400 AE006- AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT 1244660 1244670 1244680 1244690 1244700 1244710 390 380 370 360 350 340 AE006- GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT 1244720 1244730 1244740 1244750 1244760 1244770 330 320 310 300 290 280 AE006- GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC 1244780 1244790 1244800 1244810 1244820 1244830 270 260 250 240 230 220 AE006- TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA 1244840 1244850 1244860 1244870 1244880 1244890 210 200 190 180 170 160 AE006- ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA 1244900 1244910 1244920 1244930 1244940 1244950 150 140 130 120 110 100 AE006- GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA 1244960 1244970 1244980 1244990 1245000 1245010 90 80 70 60 50 40 AE006- TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: EM_PRO TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA 1245020 1245030 1245040 1245050 1245060 1245070 30 20 10 AE006- ACCTAAATGTCGTTTTTCTTTGTCTGTCAACAT ::::::::::::::::::::::::::::::::: EM_PRO ACCTAAATGTCGTTTTTCTTTGTCTGTCAACATCGTTGTTACTCTGTGATTAATGTATGG 1245080 1245090 1245100 1245110 1245120 1245130 EM_PRO GTTCTGACATCAAAAACATGCATACCTGCTGCAAGTCCTGCTTGAACACCTAAATCAGCA 1245140 1245150 1245160 1245170 1245180 1245190 FT gene complement(1244495..1245106) FT /locus_tag="PM1056" FT CDS complement(1244495..1245106) FT /codon_start=1 FT /transl_table=11 FT /locus_tag="PM1056" FT /product="unknown" FT /db_xref="GOA:Q9CLZ3" FT /db_xref="HSSP:1OCX" FT /db_xref="InterPro:IPR001451" FT /db_xref="UniProtKB/TrEMBL:Q9CLZ3" FT /protein_id="AAK03140.1" FT /translation="MLTDKEKRHLGLAHQPYDPELAEMRLRNKELLHEYNVLTRPSDKQ FT TKARLILSILGKAANTPHINTPFYCDYGQFIEVGKNFFANYHCTILDTGGVKIGDDVLF FT APNVSLYTVGHPIDPELRKAEWEQALPIVIGNNVWIGGNVVILGGVTIGDNTVIGAGSV FT VTKDIPANCVAVGNPCKVQRMISPQDREDYLQRFKPDWND" Участок (1244563 - 1245106) является частью аннотированной кодирующей последовательности CDS (1244495 - 1245106). Участок соответствует записи Q9CLZ3 банка UniProt. Поиск гомологов с помощью программы BLASTNБыла выбрана запись AJ223173 EMBL aj223173.entret.Координаты CDS в записи: (1, 552). Кодирующая последовательность была вырезана в файл aj223173.fasta. Далее была использована команда blastall -p blastn -d pm -i aj223173.fasta > aj223173.outи получен файл aj223173.out. Лучшая находка - AE006074 Pasteurella multocida subsp. multocida str. Pm70 section 41 (E-value - 0.062). Координаты находки в этой последовательности: (5974, 5990). По сравнению с результатами поиска по последовательности белка:1) Количество находок больше (16 против 2х) но и их E-value заметно больше (0.062 против 6e-35 у лучших находок). Большее число находок может объясняться отсутствием ограничения Е-value<0,001, которое мы накладывали в поиске по последовательности белка.2) Длины соответствующих друг другу находок в поиске по нуклеотидной последовательности гораздо меньше чем в поиске по последовательности белка. Работа с программой getorf пакета EMBOSS
Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более
30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и
заканчивающуюся стоп-кодоном, при использовании бактериального кода.
|