Лого
corner   corner
 
   

Поиск в геноме участков, кодирующих белки, похожие на заданный

Заданным является белок SCO1_BACSU, чья аминокислотная последовательность:

>SCO1_BACSU P54178 SCO1 protein homolog (BsSco) (Precursor)
MKVIKGLTAGLIFLFLCACGGQQIKDPLNYEVEPFTFQNQDGKNVSLESLKGEVWLADFI
FTNCETICPPMTAHMTDLQKKLKAENIDVRIISFSVDPENDKPKQLKKFAANYPLSFDNW
DFLTGYSQSEIEEFALKSFKAIVKKPEGEDQVIHQSSFYLVGPDGKVLKDYNGVENTPYD
DIISDVKSASTLK

Поиск осуществлялся программой tblastn по полному геному бактерии G.thermodenitrificans

Таблица N1. Поиск гомологов белка SCO1_BACSU в геноме бактерии G.thermodenitificans.

Число находок с E-value < 0.001 3
E-value лучшей находки 4е-92
Название последовательности с лучшей находкой CP000557
Координаты лучшей находки (от-до) 1759003-1758488
Доля последовательности белка, вошедшая в выравнивание и лучшей находкой 96%

Поиск гомологов некодирующих последовательностей программой blastn

Для поиска гомологов всех тРНК, взятых из генома Bacillus subtilis BSn5 в полном геноме G.thermodenitrificans использовались команды:

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -outfmt "6 qseqid" -out aaa_1.txt; uniq -c aaa_1.txt > bbb_1.txt

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt "6 qseqid" -out aaa_2.txt; uniq -c aaa_2.txt > bbb_2.txt

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt "6 qseqid" -out aaa_3.txt; uniq -c aaa_3.txt > bbb_3.txt

Командой

grep ">" trna_bacsu.fasta > trna.txt

был получен файл "trna.txt", содержащий названия фходных последовательностей.

Данные из файлов "trna.txt", "bbb_1.txt", "bbb_2.txt" и "bbb_3.txt" были импортированы в таблицу "trna.xls".

Анализ результатов

Как можно заметить по таблице, при изменении параметров расчета веса выравнивания и изменении длины слова количество находок растет.

Командой seqret -sask из генома бактерии был вырезан участок, возможно гомологичный последовательности тРНК BSn5_t20966.

Выравнивание, проведенное командой needle

# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 79
# Identity:      53/79 (67.1%)
# Similarity:    53/79 (67.1%)
# Gaps:          17/79 (21.5%)
# Score: 179.0
# 
#
#=======================================

BSn5_t20966        1 gggcctgtagctcagctggttagagcg-cacgcctgataagcgt-gaggt     48
                         |.||||||||||||| .|||||| ||| |.||| .||.|| |||||
CP000557           1 ----ccgtagctcagctgg-gagagcgccac-cttga-cagggtggaggt     43

BSn5_t20966       49 cggtggttcgagtccactcaggcccacca     77
                     ||.|||||||||.|||.||.|        
CP000557          44 cgctggttcgagcccagtcgg--------     64
								

В выравнивании needle есть неточности по краям. Вероятно, такая находка попалась из-за измененных параметров, повысивших чувствительность поиска. Проверка участка (819743-819806) в EMBL показала, что здесь кодируется tRNA-Val (819739-819811).

   
corner   corner
 


© Елисеев Алексей, 2014. Дата поселеднего изменения: 13.02.14