Учебный сайт Фоменко Елены

Главная Семестры Проекты Заметки

1. Работа с программой getorf пакета EMBOSS.

Вопользовавшись entret, создаем файл с записью D89965 банкка EMBL. Выполняем команду tfm getorf, чтобы разобраться, как правильно запустить программу. Выполняем команду:

getorf D89965.entret -table 0 -minsize 30 -find 1

и получаем набор трансляций всех открытых рамок данной последовательности
1)длиной более 30 нуклеотидов,
2)считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
3)при использовании стандартного кода.
Определяем открытую рамку, соответствующую приведённой в поле FT кодирующей последовательности:

>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
FT   CDS             163..435
FT                   /product="RSS"
FT                   /note="Rat Stomach Serotonin receptor-related gene"
FT                   /db_xref="GOA:P0A7B8"
FT                   /db_xref="InterPro:IPR001353"
FT                   /db_xref="InterPro:IPR022281"
FT                   /db_xref="PDB:1E94"
FT                   /db_xref="PDB:1G4A"
FT                   /db_xref="PDB:1G4B"
FT                   /db_xref="PDB:1HQY"
FT                   /db_xref="PDB:1HT1"
FT                   /db_xref="PDB:1HT2"
FT                   /db_xref="PDB:1NED"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT                   /protein_id="BAA14040.1"
FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
XX
SQ   Sequence 448 BP; 108 A; 124 C; 108 G; 108 T; 0 other;
     ggagccgata gcaataagat cgttttctgg ctgcaccacg tcaccgttac cggtgatgat        60
     aagcgatgca gtttcatccg cgactgccag cagtgcttca agtttgcgca gcatgcgatc       120
     ggtacgccag tcttttgcca gctcaacggc ggctttgacc agatggccct gatgcatttc       180
     cagtttacgt tcaaacagtt cgaacagcgt aaaagcatcc gcagtaccgc ccgcaaagcc       240
     cgcgatgact ttgtcgttgt acagacggcg gacctttttc acgttgcctt tcattacggt       300
     attgcccaac gtggcctgac catcaccagc gatgaccaca tggccgttac ggcgtacgct       360
     tactatagtt gtcacgagct gaccccttgg ttacgaatac agagtacaaa ccccgtacaa       420
     aagtacgggg cataatgcaa ttatagat                                          448

Данная запись EMBL ссылается на запись P0A7B8 в Swiss-Prot. Создаем файл с записью Swiss-Prot командой entret sw:P0A7B8. Оказывается, принадлежит эта последовательность E.Coli. В записи видим предупреждение:

CAUTION: PubMed:9013898 sequence is supposed to originate from rat
CC       but, based on sequence similarity, it seems that this is a case of
CC       bacterial contamination from E.coli.

Выясняем, что эта последовательность соответствует девятой из найденных рамок, причем только частично:

SQ   SEQUENCE   176 AA;  19093 MW;  3B35E01F51486965 CRC64;
     MTTIVSVRRN GHVVIAGDGQ ATLGNTVMKG NVKKVRRLYN DKVIAGFAGG TADAFTLFEL
     FERKLEMHQG HLVKAAVELA KDWRTDRMLR KLEALLAVAD ETASLIITGN GDVVQPENDL
     IAIGSGGPYA QAAARALLEN TELSAREIAE KALDIAGDIC IYTNHFHTIE ELSYKA

Странные полученные результаты можно попытаться объяснить ошибкой эксперимента - неправильным определением фрагмента нуклеотидной последовательности, неполнотой настоящего гена в записи EMBL и, видимо, логикой программы getorf, которая неверно определила старт-кодон.

2. Поиск гомологов некодирующих последовательностей программой BLASTN

В файле trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Предстоит определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.

Запускаем программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка – отформатированный при выполнении задания 6 геном бактерии:

blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01

Получаем таблицу с выравниваниями lmtrna.txt. Опция -c команды grep означает, что надо выдать число строк, содержащих определенное слово. Проверяем:

grep -c BSn5_t20966 lmtrna.txt

В этом случае учитывается лишняя строчка. Можно исключить такую ситуацию:

grep -c '^BSn5_t20966' lmtrna.txt

Теперь на выходе действительно имеем количество находок.

Теперь создаем колонку с названиями входных последовательностей:

grep ">" trna_bacsu.fasta > namelist.txt

Теперь создаем простой скрипт из команд, выдающих число находок для каждой последовательности. Получаем файл с колонкой чисел. Колонки с названиями и числами импортируем в файл Excel.

3. Поиск гомологов при изменённых параметрах программы BLASTN

Повторим предыдущее задание ещё два раза с изменёнными параметрами программы.

В описании программы смотрим:

-gapopen 
   Cost to open a gap
-gapextend 
   Cost to extend a gap
-penalty 
   Penalty for a nucleotide mismatch
-reward =0>
   Reward for a nucleotide match
-word_size =4>
   Word size for wordfinder algorithm (length of best perfect match)

По умолчанию:

blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01

Время: 0,455 с

Теперь меняем параметры.

1. -reward 5 -penalty -4 -gapopen 8 -gapextend 6

time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -outfmt 7 -evalue 0.01 -reward 5 -penalty -4 -gapopen 8 -gapextend 6

Время: 0,489 с

2. + word_size 4

time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -outfmt 7 -evalue 0.01 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4

Время: 27,5145 с

3. default + word_size 4

time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna3.txt -outfmt 7 -evalue 0.01 -word_size 4

Время: 20,878 с

Добавляем еще 3 столбца с числом находок в файл Excel. Итоговый файл: trna.xls.

4. Анализ результатов

Количество находок наиболее значительно увеличивается при изменении длины слова (мы все-таки поставили минимальное значение). Это хорошо заметно, особенно если сравнить значения в самой первой и последней колонках.
При изменении "стоимости" гэпов и штрафа за несовпадение количество находок также в общем увеличилось, значит, эти параметры слабее, чем по умолчанию.
Время работы программы при изменении параметров (особенно - параметра длины слова) также заметно увеличивается, наверняка из-за увеличения количества находок.

Выбираем пару последовательностей: BSn5_t20972 и AL591984. Последняя находится только при минимальной длине слова. Вырезаем участок из AL591984 командой seqret -sask, получаем файл homo_bacsu.fasta; потом выравниваем:

needle homo_bacsu.fasta trna_bacsu.fasta:BSn5_t20972

Получаем:

AL591984           1 ggtcctgtagctcagttgg---gagagtatcac-cttgacatg-gtgggg     45
                     ||.||||||||||||.|||   |||.|   ||| |.|||.|.| || |.|
BSn5_t20972        1 gggcctgtagctcagctggttagagcg---cacgcctgataagcgt-gag     46

AL591984          46 gtcgctggttcgagaccagtcgggacca---     73
                     ||||.|||||||||.|||.||.||.|||   
BSn5_t20972       47 gtcggtggttcgagtccactcaggcccacca     77

Характеристики:

     Length: 81                  
     Identity:      57/81 (70.4%)
     Similarity:    57/81 (70.4%)
     Gaps:          12/81 (14.8%)
     Score: 185.0

Смотрим в запись EMBL этого гомолога:

FT   tRNA            211362..211434
FT                   /product="transfert RNA-Val"
FT                   /note="tRNAscan-SE vs 1.3 result - Cove score = 68.03"
FT   RBS             complement(213481..213486)
FT                   /gene="lmo2843"

Оказалось, что это действительно тРНК! В отличие от исходной, переносящей изолейцин, эта трНК переносит валин.


© Фоменко Елена.