Поиск в геноме участков, кодирующих белки, похожие на Rho_ecoli.
А)Создание индексных файлов для пакета BLAST.Для начала работы с программой blast, были созданы индексные файлы для генома Pasteurella multocida, и дополнительно
для геномов
Salmonella typhimurium и Xanthomonas campestris командами:
- содана новая переменная genpath=/home/export/samba/public/tmp
- и.ф. для Pasteurella multocida: formatdb -i $genpath/pm_genome.fasta -p F -n pm
- и.ф. Salmonella typhimurium: formatdb -i $genpath/st_genome.fasta -p F -n st
- и.ф. Xanthomonas campestris: formatdb -i $genpath/xc_genome.fasta -p F -n xc
Для поиска сразу в 3-х геномах:
- создана еще новая переменная: genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"
- и.ф. для 3-х геномов:formatdb - i $genomes -p F -n 3g
Для поиска в геномах участков, кодирующих белки, похожий на Rho_ecoli, была выбрана команда
TBLASTN так как именно с её
помощью, подавая на вход аминокислотную последовательность мы сможем найти гомолога
в неаннотированных нуклеотидных
последовательностях.
Команды для построения выравниваний:
для Pasteurella multocida(см.файл)
blastall -p tblastn -d pm -i p0ag30.fasta -o pmres.txt
для Salmonella typhimurium(см.файл)
blastall -p tblastn -d st -i p0ag30.fasta -o stres.txt
для Xanthomonas campestris(см.файл)
blastall -p tblastn -d xc -i p0ag30.fasta -o xcres.txt
для 3-х геномов:(см.файл)
blastall -p tblastn -d 3g -i p0ag30.fasta -o 3gres.txt
где p0ag30.fasta
- файл с аминокислотной последовательностью белка Rho_ecoli.
Поиск гомологов RHO_ECOLI
|
Геном Pasteurella multocida
|
Геном Salmonella typhimurium
|
Геном Xanthomonas campestris
|
Число находок с Е-value<0,001 | 2 | 5 | 6 |
Характеристика лучшей находки: | AE006229|
Pasteurella multocida subsp. multocida str.
Pm70 section 196 of 204 of the complete genome. Length = 11895 Score = 718 bits (1854) Expect = 0.0 Identities = 363/420 (86%) Positives = 392/420 (93%) Gaps = 1/420 (0%) Frame = -2 |
AE008883| Salmonella typhimurium LT2, section
187 of 220 of the complete genome. Length = 20621 Score = 791 bits (2043) Expect = 0.0 Identities = 406/419 (96%) Positives = 408/419 (97%) Frame = +3 |
AE012498| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 406 of 460 of the complete
genome. Length = 12898 Score = 587 bits (1512) Expect = e-168 Identities = 289/418 (69%) Positives = 352/418 (84%) Gaps = 1/418 (0%) Frame = +2 |
E-value находки | 0.0 | 0.0 | e-168 |
AC соответствующей записи EMBL | AE006229 | AE008883 | AE012498 |
Координаты выравнивания в записи EMBL | 4283-3024 | 75-1331 | 7574-8827 |
Координаты CDS в записи EMBL | complement (3021..4283) | 75-1334 | 7550-8830 |
AC UniProt в записи EMBL | Q9CJS2 | P0A295 | Q8P4D2 |
Результаты выравнивания по трём геномам сразу:
Поиск гомологов с помощью программы BLASTN
Запустив команду Blastn и подав на вход нуклеотидную последовательность белка Rho_ecoli
(команда: blastall -p blastn -d 3g -i Rho.fasta -o blastnres.txt) ищем гомологов во всех трёх геномах бактерий
Pasteurella multocida, Salmonella typhimurium, Xanthomonas campestris. Получили следующие результаты .
Интересно то, что у второй находки (и тем более у последующих) E-value гораздо больше, а Score намного меньше, чем у первой
(190 , 6e-48-Score и E-value второй находки соответственно). Например во 2 и 3 заданиях, когда мы на вход подавали аминокислотную
последовательность параметры 1 и 2-ой находок различались мало. Это происходит из-за увеличения размера банка поиска (одна аминокислота кодируется триплетом нуклеотидов).
Кроме того аминокислот в пять раз больше ,чем нуклеотидных остатков, поэтому случайное сходство аминокислотых последовательностей гораздо вероятней, чем нуклеотидных.
Отсюда можно сказать, что BLASTN хорошо подходит для поиска самых близких гомологов, а TBLASTN - для поиска всех гомологов.
Что же касается аннотирования генома - я считаю, что наиболее подходит для этого TBLASTN. Исходя из результатов всех выравниваний в наиболее похожий на Rho_ecoli белок есть в Salmonella typhimurium,
Количество находок с E-value<0.001
11
Характеристика лучшей находки
|AE008883| Salmonella typhimurium LT2, section
187 of 220 of the complete genome.
Length = 20621
Score = 791 bits (2043)
Expect = 0.0
Identities = 406/419 (96%)
Positives = 408/419 (97%)
Frame = +3
E-value лучшей находки
0.0
AC соответствующей записи EMBL
AE008883
Координаты выравнивания в записи EMBL
75-1331
Координаты CDS в записи EMBL
75-1334
AC UniProt в записи EMBL
P0A295
Лучшая находка AE008883| Salmonella typhimurium LT2, section 187
of 220 of the complete genome.
Length = 20621
Score = 1737 bits
(876), Expect = 0.0
Identities = 1164/1260 (92%)
Strand = Plus / Plus
нежели в других 2-х организмах. Из предположения о том, эволюция белков идет вместе с эволюцией организмов, можно сказать, что
Escherichia coli эволюционно ближе к Salmonella typhimurium, чем к Xanthomonas campestris или Pasteurella multocida.