Программы пакета BLAST для работы с нуклеотидными последовательностями

Создание индексных файлов для работы с локальными версиями программ семейства BLAST

Работа проводилась со следующими файлами:

vc_genome.fasta, включающем последовательности из EMBL, составляющие полный геном холерного вибриона (Vibrio cholerae);
pa_genome.fasta - полный геном синегнойной палочки (Pseudomonas aeruginosa);
pm_genome.fasta - полный геном бактерии Pasteurella multocida.

С помощью программы formatdb были созданы индексные файлы, при этом использовались следующие параметры:

 
-i     файл, подаваемый на вход
-p     тип последовательности в файле (T - аминокислотная, F - нуклеотидная)
-n     первая часть файла с расширением (nhr, nin или nsq)

formatdb -i pa_genome.fasta -p F -n pa

Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный

В задании требуется определить, не закодированы ли в геномах организмов Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida белки, похожие на мой белок - GLMU.ECOLI, аминокислотная последовательность которого известна. Из предложенных программ для выполнения задания наиболее подходит программа TBLASTN.
С помощью команды:
blastall -p tblastn -d pa -i glmu.fasta -o resultpa.txt
(и аналогичных для двух других геномов) получены следующие файлы
для Pseudomonas aeruginosa
для Pasteurella multocida
для Vibrio cholerae

результаты представлены в таблице:

Поиск гомологов GLMU_Ecoli Геном Pseudomonas aeruginos Геном Vibrio cholerae Геном Pasteurella multocida

Характеристика лучшей находки:

E-value находки e-141 0.0 0.0

координаты выравнивания(-ий)
в записи генома 9430..8075 (комп) 7243..5894 (компл) 5421..6785

AC соответствующей записи EMBL AE004967 AE004342 AE006217

Координаты CDS в записи EMBL (если они есть) 5891..7252 5421..6797

AC UniProt в записи EMBL (если есть) Q9KNH7 Q9CK29

Число находок с Е-value<0,01
2 4 5

Поиск по трем геномам сразу

Число находок с Е-value<0,01 2 4 3

E-value лучшей находки e-140 0.0 0.0

АС лучшей находки AE004967 AE004342 AE006217

Аналогичный поиск сразу в нескольких геномах

Поиск похожих белков проводился по всем трем геномам. Были созданы индексные файлы сразу для 3-х геномов.
Выпонены следующие команды:

genpath=/home/export/samba/public/tmp -ввод переменнной, для того, чтобы не набирать несколько раз один и тот же путь к файлам;

genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" -ввод переменной, обозначающей все три файла с геномами;

formatdb -i "$genomes" -n 3g -p F - получены индексные файлы;

blastall -p tblastn -d 3g -i glmu_ecoli.fasta -o result-3g.txt -получен файл с выравниваниями.

Результаты отображены в таблице.

Были найдены те же находки, что и при поиске по каждому из геномов, только с большим E-value. Увеличение вероятности нахождение данной последовательности вызвано увеличением банка поиска при поиске по 3 геномам.
Количество находок с Е-value<0,01 для Pseudomonas aeruginosa и Vibrio cholerae не изменилось, а для Pasteurella multocida - уменьшилось на две.

Поиск гомологов с помощью программы BLASTN

С комощью программы BLASTN был произведен поиск гомологов белка GLMU_ECOLI по гену, кодирующемуего. в 3 геномах из предыдущего задания.

Выполнена команда blastall -p blastn -d 3g -i glmu_gene2.fasta -o result-3g-b.txt

E-value лучшей находки = 2e-07. Выравнивание, соответствующее лучшей находке:

>embl|AE004967|AE004967 Pseudomonas aeruginosa PAO1, section 528 of
            529 of the complete genome.
          Length = 16662

 Score = 56.0 bits (28), Expect = 2e-07
 Identities = 40/44 (90%)
 Strand = Plus / Minus

                                                        
Query: 1129 aacatcggcgcgggaaccattacctgcaactacgatggtgcgaa 1172
            ||||||||||| || ||||| ||||||||||||||||| |||||
Sbjct: 8314 aacatcggcgccggcaccatcacctgcaactacgatggcgcgaa 8271

Лучшая находка AE004967. Эту же запись нам выдана программой TBLASTN при поиске гомологов по трем геномам сразу. E-value больше, чем при поиске в TBLASTN. Увеличение банка данных происходит из-за того, что нуклеотидные последовательности длиннее белковых. Также нуклеодтидов всего 4, а аминокислот 20, следовательно, вероятность совпадения с нуклеотидом намного выше. Этим можно объяснить возрастание E-value.

Поиск гомологов GLMU_Ecoli		Геном Pseudomonas aeruginos	Геном Vibrio cholerae	Геном Pasteurella multocida
Характеристика лучшей находки:
	E-value находки	e-141	0.0	0.0
	координаты выравнивания(-ий) в записи генома	9430..8075 (комп)	7243..5894 (компл)	5421..6785
AC соответствующей записи EMBL		AE004967	AE004342	AE006217
	Координаты CDS в записи EMBL (если они есть)		5891..7252	5421..6797
	AC UniProt в записи EMBL (если есть)		Q9KNH7	Q9CK29
Число находок с Е-value<0,01		2	4	5
Поиск по трем геномам сразу
Число находок с Е-value<0,01		2	4	3
E-value лучшей находки		e-140	0.0	0.0
АС лучшей находки		AE004967	AE004342	AE006217