Нам известна аминокислотная последовательность моего белка SYC_ECOLI из Escherichia coli K-12.
Определим закодированы ли похожие белки в геноме Pasteurella multocida, не пользуясь аннотацией генома.
Подходящая для решения данной задачи программу из пакета BLAST - TBLASTN . Проведем с ее помощью поиск с порогом на E-value 0,001.
formatdb -i pm_genome.fasta -n index -p F blastall -p tblastn -d index -i syc_ecoli.fasta -e 0.001 > syc_ecoli.out
Число находок с Е-value<0,001 | 2 | ||
Характеристика лучшей находки : | |||
E-value находки | 0.0 | ||
Название геномной последовательности | AE006134 Pasteurella multocida subsp. multocida str. Pm70 section 101 of 204 of the complete genome. | ||
Координаты выравнивания(-ий) в найденной последовательности | 2994 - 4370 |
Опции: -p tblastn- поиск осуществляется по известной белковой последовательности среди нуклеотидных последовательностей -d pm- программой используются индексные файлы, созданные ранее, с базовым именем pm -i syc_ecoli.fasta- последовательность белка, подаваемая на вход программе
Определим AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога моего белка, а также координаты этого гена согласно аннотации EMBL.
Получим участок последовательности генома Pasteurella multocida (найденый как лучший) в отдельном файле :
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): pm_genome.fasta:AE006134 Begin at position [start]: 2994 End at position [end]: 4370 Reverse strand [N]: N output sequence(s) [AE006134.fasta]: AE006134.fasta
На сайте EBI запустим поиск этой последовательности в банке "EMBL standard prokaryote".
На страничке "Bioinformatic tools" пройти по гиперссылке "BLAST" и выбрать "NCBI-BLAST2 Nucleotide" (или "WU-BLAST2 Nucleotide"). Нужные параметры стоят на странице сервиса по умолчанию. Выбрать нужный банк в меню "Database". Последовательность скопировать из файла в окошко.
AC : AE004439
координаты в аннотации: 1115472 - 1116848
Запись из EMBL получим при помощи команды:
entret embl:AE004439 -auto
FT CDS 1115472..1116851 FT /codon_start=1 FT /transl_table=11 FT /gene="cysS" FT /locus_tag="PM0945" FT /product="CysS" FT /db_xref="GOA:P57890" FT /db_xref="HSSP:1LI5" FT /db_xref="InterPro:IPR014729" FT /db_xref="UniProtKB/Swiss-Prot:P57890" FT /protein_id="AAK03029.1" FT /translation="MLKIFNTLTREKEIFKPIHANKVGMYVCGITVYDLCHVGHGRTFV FT CFDVIARYLRYLGYDLTYVRNITDVDDKIIKRALENNETCNQLVEKMIAEMHKDFDALN FT VLRPDVEPRATHHIPEIIAMIEKLIARQHAYVSANGDVMFDVESFKEYGKLSRQNLEQL FT QAGARVEIVNVKKNPMDFVLWKMSKPGEPSWPSPWGEGRPGWHIECSAMNHKELGEHFD FT IHGGGSDLTFPHHENEIAQSCCAHSGRYVNYWIHSGMIMVDREKMSKSLGNFFTLREVL FT SLYDAESVRYFLLTAHYRSQLNYSEENLNLAHSALERLYTALRGTDPTAVATEGQNYLA FT AFREAMDDDFNTPKAISVLFEIAREINKLKNEDILKANALAARLRELAGILGLLYQDPE FT QFLQSGSDNDEVALIEALIKQRNDARAAKDWASADAARNKLAEMGVVLEDNVNGTTWRK FT Q"
Координаты CDS - 1115472..1116851
Участок соответсвует записи в Swiss-Prot - P57890
Выберу запись из EMBL - U00096 - на нее ссылается белок P21888 (SYC_ECOLI).
Получим соотвестствующую запись :
entret embl:U00096 -auto
Кодирующую последовательность поместим в отдельный файл :
seqret "embl:U00096[553834:555219]"
Проведем поиск гомологов в геноме Pasteurella multocida с помощью программы BLASTN.
formatdb -i pm_genome.fasta -n index -p F blastall -p blastn -d index -i U00096.fasta -e 0.001 > U00096.out
Число находок с Е-value<0,001 | 1 | ||
Характеристика лучшей находки : | |||
E-value находки | 4e-05 | ||
Название геномной последовательности | AE006134 Pasteurella multocida subsp. multocida str. Pm70 section 101 of 204 of the complete genome. | ||
Координаты выравнивания(-ий) в найденной последовательности | 3774 - 3820 |
Количество находок у BLASTN больше, но если ограничивать по E-value < 0.001, то количество подходящих находок уменьшается. Длина этой лучшей находки существенно меньше, чем для находок из TBLASTN. Отличаются так же координаты выранивания. E-value находки в BLASTN маленькое, но большее лучшей находки в TBLASTN.