Московский Государственный Университет имени М.В.Ломоносова

Факультет Биоинженерии и Биоинформатики

Учебный сайт Сеферяна Мелика

Главная

I Семестр

II Семестр

III Семестр

Проекты

Официальный сайт ФББ

Официальный сайт МГУ

Полезные ссылки

Программы пакета BLAST для работы с нуклеотидными последовательностями.

1. Поиск в геноме участков, кодирующих белки, похожие на заданный.

Дан геном бактерии Xanthomonas campestris и аминокислотная последовательность белка RISA_ECOLI.
Cоздаем индексные файлы пакета BLAST:

	formatdb -i xc_genome.fasta -p F -n xc
	
Далее запускаем программу TBLASTN:

	blastall -p tblastn -d xc -i risa_ecoli.fasta -e 0.001 -o risa_xc.out
	
на выходе имеем файл risa_xc.out

Поиск гомологов белка RISA_ECOLI в геноме Xanthomonas campestris.

Число находок с Е-value<0,001 1
Характеристика лучшей находки:  
   E-value находки 5e-30
Название геномной последовательности Xanthomonas campestris pv. campestris str. ATCC 33913, section 76 of 460 of the complete genome.
Координаты выравнивания в найденной последовательности 3429..4028


Score =  125 bits (313), Expect = 5e-30,   Method: Compositional matrix adjust.
Identities = 77/208 (37%), Positives = 110/208 (52%), Gaps = 3/208 (1%)
Frame = +3

Query: 1    MFTGIVQGTAKLVSIDEKPN---FRTHVVELPDHMLDGLETGASVAHNGCCLTVTEINGN 57
            MFTGI++G  +L +   +     F      LP    + ++ G S+A NG CLTV   +  
Sbjct: 3429 MFTGIIEGVGRLAARQPQGGDVRFTFATGSLP---FEAVQLGESIAVNGVCLTVIAFDAA 3599

Query: 58   HVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHLMSGHIMTTAEVAKILTSEN 117
                D   ETL +T LG L+ G  +N+ERA + +D +GGHL+SGH+    +V  +   + 
Sbjct: 3600 SFQADASTETLSLTTLGSLQEGAVLNLERAMRPTDRLGGHLVSGHVDGLGQVQSV-HGDA 3776

Query: 118  NRQIWFKVQDSQLMKYILYKGFIGIDGISLTVGEVTPTRFCVHLIPETLERTTLGKKKLG 177
              Q W      Q+++Y+  KG I +DG+SLTV EV    F V LIP T+  T   +  +G
Sbjct: 3777 RAQRWRFAAPPQVLRYVAKKGSICVDGVSLTVNEVDDAGFEVALIPHTVANTAFSETAVG 3956

Query: 178  ARVNIEIDPQTQAVVDTVERVLAARENA 205
            A VN+EID     V   VER+L  R  A
Sbjct: 3957 AAVNLEID----LVARYVERLLGTRGAA 4028

	
2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

С помощью программы seqret был получен файл с нуклеотидной последовательностью найденной в предыдущем задании.
Далее с помощью программы BLASTN находим, что AC настоящего релиза EMBL - AE008922
а исходной последовательности в этой записи соответствуют позиции 837403..838002.
Находим в поле FT информацию об этом участке последовательности.
FT   gene            837403..838005
FT                   /gene="ribE"
FT                   /locus_tag="XCC0695"
FT   CDS             837403..838005
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="ribE"
FT                   /locus_tag="XCC0695"
FT                   /product="riboflavin synthase alpha chain"
FT                   /note="identified by sequence similarity; putative; ORF
FT                   located using Blastx/Glimmer/Genemark"
FT                   /db_xref="HSSP:1I8D"
FT                   /db_xref="InterPro:IPR001783"
FT                   /db_xref="InterPro:IPR017938"
FT                   /db_xref="UniProtKB/TrEMBL:Q8PCM9"
FT                   /protein_id="AAM40011.1"
FT                   /translation="MFTGIIEGVGRLAARQPQGGDVRFTFATGSLPFEAVQLGESIAVN
FT                   GVCLTVIAFDAASFQADASTETLSLTTLGSLQEGAVLNLERAMRPTDRLGGHLVSGHVD
FT                   GLGQVQSVHGDARAQRWRFAAPPQVLRYVAKKGSICVDGVSLTVNEVDDAGFEVALIPH
FT                   TVANTAFSETAVGAAVNLEIDLVARYVERLLGTRGAA"
	
Таким образом координаты CDS согласно аннотации 837403..838005.
Продукту этого гена соответствует запись Q8PCM9 банка UniProt.

3. Поиск гомологов с помощью программы BLASTN.

Файл risa_ecoli_nt.fasta содержит нуклеотидную последовательность гена, кодирующего белок RISA_ECOLI.
Проведем поиск гомологов белка RISA_ECOLI в геноме Xanthomonas campestris по нуклеотидной последовательности с помощью программы BLASTN.

Программа не нашла ни одного гомолога. Наименьшее Evalue 0.64.

4. Работа с программой getorf пакета EMBOSS

Запись D89965 банка EMBL находится в файле d89965.entret.
Найдем все рамки считывания в этом файле используя программу getorf:

	 getorf -minsize 30 -find 1 -table 11
    Finds and extracts open reading frames (ORFs)
    Input nucleotide sequence(s): d89965.fasta
    protein output sequence(s) [d89965.orf]:
	
на выходе получим файл d89965.orf.
Данная запись EMBL ссылается на запись SwissProt P0A7B8, которой соответствует 13-ая рамка.
CDS записи соответствует 5-ая рамка.

5. Поиск некодирующих последовательностей программой BLASTN

Файл trna_ecoli.fasta содержит последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Нужно определить, сколько гомологов каждой из тРНК программа BLASTN находит в геноме бактерии Xanthomonas campestris.

Результаты находятся в файле trna.xls.

6. Поиск некодирующих последовательностей программой megablast

Megablast:

	megablast -d xc -i trna_ecoli.fasta -o mega.out -m 8
	
Discontigous megablast:

	megablast   -m 8 -D 2 -t 16 -W 11 -N 1 -d xc -i trna_ecoli.fasta -o disc.out
	
Количество гомологов каждой тРНК, найденных этими программами можно посмотреть в файле trna.xls.

7. Анализ результатов

Выбрана тРНК aspU E.Coli. и гомологичный ей участок в геноме Xanthomonas campestris, найденный программой BLASTN и не найденный программой megablast.
С помощью программы needle получим выравнивание:

# Length: 77
# Identity:      69/77 (89.6%)
# Similarity:    69/77 (89.6%)
# Gaps:           0/77 ( 0.0%)
# Score: 313.0
# 
#
#=======================================

AE012195           1 ggagcggtagttcagctggttagaatgctggcctgtcacgccggaggtcg     50
                     |||||||||||||||..|||||||||.|..|||||||||||.||.|||||
aspU               1 ggagcggtagttcagtcggttagaatacctgcctgtcacgcagggggtcg     50

AE012195          51 cgggttcgagtcccgtccgctccgcca     77
                     |||||||||||||||||||.|||||||
aspU              51 cgggttcgagtcccgtccgttccgcca     77
	
Аннотация в записи EMBL:

FT   gene            1135403..1135479
FT                   /locus_tag="XCC0980"
FT   tRNA            1135403..1135479
FT                   /locus_tag="XCC0980"
FT                   /product="tRNA-Asp"
FT                   /note="Found by tRNAscan"

© Сеферян Мелик, 2008 seferyan_m@mail.ru