Анализ деревьев, содержащих паралоги. Особенности работы с нуклеотидными последовательностями.
+---PROMH +--5 | +-ECOLI +----4 | | +--VIBFM | +--3 | +-VIBCH | | +-BURCA 2---1 | +--RALPJ | +--------BRAJAПостроенное дерево совпадает со всеми полученными ранее деревьями и правильным деревом, если укоренить его по тривиальной ветви {BRAJA}. Скобочная формула дерева выглядит так:
(((PROMH:0.05500,ECOLI:0.03438):0.02764,(VIBFM:0.04505,VIBCH:0.03310):0.02144):0.07642,(BURCA:0.04168,RALPJ:0.05142):0.06473,BRAJA:0.15558);Результат не может не радовать. Ведь реконструкция деревьев по нуклеиновым кислотам дает обычно куда менее правдоподобный результат, чем по белкам, так как генетический код вырожден, то есть каждую аминокислоту могут кодировать разные триплеты, а матрица весов не подразумевает разные штрафы за триплеты, кодирующие одну аминокислоту и разные. В данном случае дерево получилось правильным потому, что в качестве объекта были выбраны последовательности 16S рРНК, которые, естественно, меньше подвержены мутациям, чем мРНК (ведь для рРНК каждая мутация может оказаться критической и, таким образом, не "прижиться" у потомков).
seqret sw:FTSH_ECOLIСохраним последовательность в файле ftsh_ecoli.fasta. Затем создадим индексные файлы пакета BLAST для поиска по файлу с помощью команды:
formatdb -i proteo.fasta -p T -n prТеперь проведем поиск гомологов программой BLASTP c порогом E-value, равным 0.0001:
blastall -p blastp -d pr -i ftsh_ecoli.fasta -o hom.txt -e 0.0001На выходе получаем файл hom.txt с перечнем гомологов белка FTSH_ECOLI. Выберем из них те, которые принадлежат выбранным бактериям, и сохраним полученный список в файл hom1.txt. Поместим последовательности гомологов в файл hom1.fasta и подадим его на вход программе muscle. Полученный файл hom1_aligned.fasta подадим программе fprotpars. В результате получаем файл hom1_aligned.fprotpars c изображениями 2 наиболее правдоподобных деревьев гомологов белка FTSH_ECOLI. Рассмотрим одно из них:
+-----------------------------------B5FCR8_VIBFM ! ! +--B2UIS9_RALPJ ! +-18 ! +-------------------17 +--B2UE66_RALPJ ! ! ! ! ! +-----Q1BNJ2_BURCA +--------------8 ! ! ! +----16 +--B2UGP9_RALPJ ! ! ! ! +-------------11 ! ! ! ! ! +--Q1BXC9_BURCA ! ! ! ! ! ! ! ! ! ! +--B5FA73_VIBFM ! ! ! +-------10 +----15 ! ! ! ! ! +--Q9KU86_VIBCH ! +--9 ! +-14 ! ! ! ! ! +--B4F2B3_PROMH ! ! +----12 +----13 ! ! ! +--FTSH_ECOLI +--6 ! ! ! ! ! +-----------Q9XBG5_BRAJA ! ! ! ! ! ! +--Q89BR3_BRAJA ! ! +-----------------------------7 ! ! +--B2U6W7_RALPJ ! ! ! ! +--HSLU_VIBFM 1 ! +-----5 ! ! ! +--HSLU_VIBCH ! ! +--4 ! ! ! ! +--HSLU_PROMH ! +--------------------------------------2 +-----3 ! ! +--HSLU_ECOLI ! ! ! +-----------HSLU_RALPJ ! +-----------------------------------------------------HSLU_BRAJAВ этом дерево очень четко выделяется поддерево семейства белков HSLU. Поддерево этого семейства в точности повторяет деревья, построенные в других заданиях и правильное дерево (однако, увы, оно не содержит белка HSLU_BURCA). Поэтому, например, белки HSLU_VIBFM и HSLU_VIBCH являются ортологами, так же как и белки HSLU_PROMH и HSLU_ECOLI. Кроме того, в качестве примеров ортологов можно указать белки B2UGP9_RALPJ и Q1BXC9_BURCA, B4F2B3_PROMH и FTSH_ECOLI, Q89BR3_BRAJA и B2U6W7_RALPJ и так далее (ортологами будем называть белки из разных организмов такие, что разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования).
Назад