Программы пакета BLAST для работы с нуклеотидными последовательностями.


1.Создание индексных файлов для работы с локальными версиями программ семейства BLAST.


Из директории /home/export/samba/public/tmp я скопировал 3 файла:

vc_genome.fasta, включающий последовательности из EMBL, составляющие полный геном Vibrio cholerae

pa_genome.fasta - полный геном Pseudomonas aeruginosa

pm_genome.fasta - полный геном бактерии Pasteurella multocida.

 

Создал индексные файлы, используя команды программой formatdb:

formatdb -i vc_genome.fasta -p F -n vc
formatdb -i pa_genome.fasta -p F -n pa
formatdb -i pm_genome.fasta -p F -n pm

2.Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный.


Для определения, закодирования на похожесть  на мой белой в неаннотированном геноме другого организма, предлогалось выбрать подходящую для решения данной задачи программу из пакета BLAST и провести с ее помощью поиск. Для этого подходит программа TBLASTN.

 

Использовались команды:
blastall -p tblastn -d vc -i glpk_ecoli.fasta -o vcresult.txt
blastall -p tblastn -d pa -i
glpk_ecoli.fasta -o paresult.txt
blastall -p tblastn -d pm -i
glpk_ecoli.fasta -o pmresult.txt

Результаты поиска в таблице:

Поиск гомологов Glpk_Ecoli

Геном Vibrio cholerae.

Геном Pseudomonas aeruginosa.

Геном Pasteurella multocida.

Характеристика лучшей находки:

 

 

 

    

E-value находки

0,0

0,0

0,0

 

координаты выравнивания(-ий)
в записи генома

5379-3889

1060-2547

2165-3670

AC соответствующей записи EMBL

AE004403

AE004779

AE006181

 

Координаты CDS в записи EMBL (если они есть)

Complement

(3862..5379)

 

 2165..3673

 

AC UniProt в записи EMBL (если есть)

Q9KLJ9

 

 P57944

Число находок с Е-value<0,01

1

4

3

3.Аналогичный поиск сразу в нескольких геномах.

Создал в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью программы TBLASTN провёл поиск по трем геномам.

 

Использовал команды:

genpath=/home/export/samba/public/tmp
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -n 3g -p F
blastall -p tblastn -d 3g -i
glpk_ecoli.fasta -o 3gresult.txt

При поиске по трем геномам сразу E-value лучшей находки ничнго не поменялось. E-value так и остался равен нулю.

4.Поиск гомологов с помощью программы BLASTN.

Скопировал fasta-файл с гeном своего белка. Поискал гомологи этого гена в трёх геномах программой BLASTN.

 

Использовались команды:
blastall -p blastn -d 3g -i glpk_gene1.fasta -o generesult.txt

E-value лучшей находки Vibrio cholerae – 2e-26.

 

Ниже приводится выравнивание:

>embl|AE004403|AE004403 Vibrio cholerae O1 biovar eltor str. N16961

            chromosome II, section 60 of 93 of the complete

            chromosome.

          Length = 13164

 

 Score =  119 bits (60), Expect = 2e-26

 Identities = 93/104 (89%)

 Strand = Plus / Minus

 

                                                                        

Query: 506  tgctgtttggtacggttgatacgtggcttatctggaaaatgactcagggccgtgtccatg 565

            |||||||||||||||||||||| |||||  | ||||||||||| || |||||||| ||||

Sbjct: 4898 tgctgtttggtacggttgatacatggctagtgtggaaaatgacacaaggccgtgtgcatg 4839

 

                                                        

Query: 566  tgaccgattacaccaacgcctctcgtaccatgttgttcaacatc 609

            ||||||||||||||||||| || ||||| ||| |||||||||||

Sbjct: 4838 tgaccgattacaccaacgcatcccgtactatgctgttcaacatc 4795

Запись EMBL AE004403, геном Vibrio cholerae O1 biovar eltor str. N16961 chromosome II, section 60 of 93 of the complete chromosome.

Находка полностью идентична лучшей находке при поиске по геному Vibrio cholerae (в первом задании).

 


На главную страницу третьего семестра

На главную


© Кузеванов Алексей,2005