Поиск в геноме участков, кодирующих белки, похожие на Rho_ecoli.
А)Создание индексных файлов для пакета BLAST.Для начала работы с программой blast, были созданы индексные файлы для генома Pasteurella multocida, и дополнительно
для геномов
Salmonella typhimurium и Xanthomonas campestris командами:
- содана новая переменная genpath=/home/export/samba/public/tmp
- и.ф. для Pasteurella multocida: formatdb -i $genpath/pm_genome.fasta -p F -n pm
- и.ф. Salmonella typhimurium: formatdb -i $genpath/st_genome.fasta -p F -n st
- и.ф. Xanthomonas campestris: formatdb -i $genpath/xc_genome.fasta -p F -n xc
Для поиска сразу в 3-х геномах:
- создана еще новая переменная: genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"
- и.ф. для 3-х геномов:formatdb - i $genomes -p F -n 3g
Для поиска в геномах участков, кодирующих белки, похожий на Rho_ecoli, была выбрана команда
TBLASTN так как именно с её
помощью, подавая на вход аминокислотную последовательность мы сможем найти гомолога
в неаннотированных нуклеотидных
последовательностях.
Команды для построения выравниваний:
для Pasteurella multocida(см.файл)
blastall -p tblastn -d pm -i p0ag30.fasta -o pmres.txt
для Salmonella typhimurium(см.файл)
blastall -p tblastn -d st -i p0ag30.fasta -o stres.txt
для Xanthomonas campestris(см.файл)
blastall -p tblastn -d xc -i p0ag30.fasta -o xcres.txt
для 3-х геномов:(см.файл)
blastall -p tblastn -d 3g -i p0ag30.fasta -o 3gres.txt
где p0ag30.fasta
- файл с аминокислотной последовательностью белка Rho_ecoli.
Число находок с Е-value<0,001
2
5
6
Характеристика лучшей находки:
AE006229|
Pasteurella multocida subsp. multocida str.
Pm70 section 196 of 204 of the complete genome.
Length = 11895
Score = 718 bits (1854)
Expect = 0.0
Identities = 363/420 (86%)
Positives = 392/420 (93%)
Gaps = 1/420 (0%)
Frame = -2
AE008883| Salmonella typhimurium LT2, section
187 of 220 of the complete genome.
Length = 20621
Score = 791 bits (2043)
Expect = 0.0
Identities = 406/419 (96%)
Positives = 408/419 (97%)
Frame = +3
AE012498| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 406 of 460 of the complete
genome.
Length = 12898
Score = 587 bits (1512)
Expect = e-168
Identities = 289/418 (69%)
Positives = 352/418 (84%)
Gaps = 1/418 (0%)
Frame = +2
E-value находки
0.0
0.0
e-168
AC соответствующей записи EMBL
AE006229
AE008883
AE012498
Координаты выравнивания в записи EMBL
4283-3024
75-1331
7574-8827
Координаты CDS в записи EMBL
complement (3021..4283)
75-1334
7550-8830
AC UniProt в записи EMBL
Q9CJS2
P0A295
Q8P4D2
Результаты выравнивания по трём геномам сразу:
Количество находок с E-value<0.001
11
Характеристика лучшей находки
|AE008883| Salmonella typhimurium LT2, section
187 of 220 of the complete genome.
Length = 20621
Score = 791 bits (2043)
Expect = 0.0
Identities = 406/419 (96%)
Positives = 408/419 (97%)
Frame = +3
E-value лучшей находки
0.0
AC соответствующей записи EMBL
AE008883
Координаты выравнивания в записи EMBL
75-1331
Координаты CDS в записи EMBL
75-1334
AC UniProt в записи EMBL
P0A295
Поиск гомологов с помощью программы BLASTN
Запустив команду Blastn и подав на вход нуклеотидную последовательность белка Rho_ecoli
(команда: blastall -p blastn -d 3g -i Rho.fasta -o blastnres.txt) ищем гомологов во всех трёх геномах бактерий
Pasteurella multocida, Salmonella typhimurium, Xanthomonas campestris. Получили следующие результаты .
Интересно то, что у второй находки (и тем более у последующих) E-value гораздо больше, а Score намного меньше, чем у первой
(190 , 6e-48-Score и E-value второй находки соответственно). Например во 2 и 3 заданиях, когда мы на вход подавали аминокислотную
последовательность параметры 1 и 2-ой находок различались мало. Это происходит из-за увеличения размера банка поиска (одна аминокислота кодируется триплетом нуклеотидов).
Кроме того аминокислот в пять раз больше ,чем нуклеотидных остатков, поэтому случайное сходство аминокислотых последовательностей гораздо вероятней, чем нуклеотидных.
Отсюда можно сказать, что BLASTN хорошо подходит для поиска самых близких гомологов, а TBLASTN - для поиска всех гомологов.
Что же касается аннотирования генома - я считаю, что наиболее подходит для этого TBLASTN.
Лучшая находка AE008883| Salmonella typhimurium LT2, section 187
of 220 of the complete genome.
Length = 20621
Score = 1737 bits
(876), Expect = 0.0
Identities = 1164/1260 (92%)
Strand = Plus / Plus
Исходя из результатов всех выравниваний в наиболее похожий на Rho_ecoli белок есть в Salmonella typhimurium,
нежели в других 2-х организмах. Из предположения о том, эволюция белков идет вместе с эволюцией организмов, можно сказать, что
Escherichia coli эволюционно ближе к Salmonella typhimurium, чем к Xanthomonas campestris или Pasteurella multocida.