Учебный сайт Фоменко Елены
Главная | Семестры | Проекты | Заметки |
1. Работа с программой getorf пакета EMBOSS.
Вопользовавшись entret, создаем файл с записью D89965 банкка EMBL. Выполняем команду tfm getorf, чтобы разобраться, как правильно запустить программу. Выполняем команду:
getorf D89965.entret -table 0 -minsize 30 -find 1
и получаем набор трансляций всех открытых рамок данной последовательности
1)длиной более 30 нуклеотидов,
2)считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
3)при использовании стандартного кода.
Определяем открытую рамку, соответствующую приведённой в поле FT кодирующей последовательности:
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
FT CDS 163..435 FT /product="RSS" FT /note="Rat Stomach Serotonin receptor-related gene" FT /db_xref="GOA:P0A7B8" FT /db_xref="InterPro:IPR001353" FT /db_xref="InterPro:IPR022281" FT /db_xref="PDB:1E94" FT /db_xref="PDB:1G4A" FT /db_xref="PDB:1G4B" FT /db_xref="PDB:1HQY" FT /db_xref="PDB:1HT1" FT /db_xref="PDB:1HT2" FT /db_xref="PDB:1NED" FT /db_xref="UniProtKB/Swiss-Prot:P0A7B8" FT /protein_id="BAA14040.1" FT /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY FT GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA" XX SQ Sequence 448 BP; 108 A; 124 C; 108 G; 108 T; 0 other; ggagccgata gcaataagat cgttttctgg ctgcaccacg tcaccgttac cggtgatgat 60 aagcgatgca gtttcatccg cgactgccag cagtgcttca agtttgcgca gcatgcgatc 120 ggtacgccag tcttttgcca gctcaacggc ggctttgacc agatggccct gatgcatttc 180 cagtttacgt tcaaacagtt cgaacagcgt aaaagcatcc gcagtaccgc ccgcaaagcc 240 cgcgatgact ttgtcgttgt acagacggcg gacctttttc acgttgcctt tcattacggt 300 attgcccaac gtggcctgac catcaccagc gatgaccaca tggccgttac ggcgtacgct 360 tactatagtt gtcacgagct gaccccttgg ttacgaatac agagtacaaa ccccgtacaa 420 aagtacgggg cataatgcaa ttatagat 448
Данная запись EMBL ссылается на запись P0A7B8 в Swiss-Prot. Создаем файл с записью Swiss-Prot командой entret sw:P0A7B8. Оказывается, принадлежит эта последовательность E.Coli. В записи видим предупреждение:
CAUTION: PubMed:9013898 sequence is supposed to originate from rat CC but, based on sequence similarity, it seems that this is a case of CC bacterial contamination from E.coli.
Выясняем, что эта последовательность соответствует девятой из найденных рамок, причем только частично:
SQ SEQUENCE 176 AA; 19093 MW; 3B35E01F51486965 CRC64; MTTIVSVRRN GHVVIAGDGQ ATLGNTVMKG NVKKVRRLYN DKVIAGFAGG TADAFTLFEL FERKLEMHQG HLVKAAVELA KDWRTDRMLR KLEALLAVAD ETASLIITGN GDVVQPENDL IAIGSGGPYA QAAARALLEN TELSAREIAE KALDIAGDIC IYTNHFHTIE ELSYKA
Странные полученные результаты можно попытаться объяснить ошибкой эксперимента - неправильным определением фрагмента нуклеотидной последовательности, неполнотой настоящего гена в записи EMBL и, видимо, логикой программы getorf, которая неверно определила старт-кодон.
2. Поиск гомологов некодирующих последовательностей программой BLASTN
В файле trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Предстоит определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.
Запускаем программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка – отформатированный при выполнении задания 6 геном бактерии:
blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
Получаем таблицу с выравниваниями lmtrna.txt. Опция -c команды grep означает, что надо выдать число строк, содержащих определенное слово. Проверяем:
grep -c BSn5_t20966 lmtrna.txt
В этом случае учитывается лишняя строчка. Можно исключить такую ситуацию:
grep -c '^BSn5_t20966' lmtrna.txt
Теперь на выходе действительно имеем количество находок.
Теперь создаем колонку с названиями входных последовательностей:
grep ">" trna_bacsu.fasta > namelist.txt
Теперь создаем простой скрипт из команд, выдающих число находок для каждой последовательности. Получаем файл с колонкой чисел. Колонки с названиями и числами импортируем в файл Excel.
3. Поиск гомологов при изменённых параметрах программы BLASTN
Повторим предыдущее задание ещё два раза с изменёнными параметрами программы.
В описании программы смотрим:
-gapopen Cost to open a gap -gapextend Cost to extend a gap -penalty Penalty for a nucleotide mismatch -reward =0> Reward for a nucleotide match -word_size =4> Word size for wordfinder algorithm (length of best perfect match)
По умолчанию:
blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
Время: 0,455 с
Теперь меняем параметры.
1. -reward 5 -penalty -4 -gapopen 8 -gapextend 6
time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -outfmt 7 -evalue 0.01 -reward 5 -penalty -4 -gapopen 8 -gapextend 6
Время: 0,489 с
2. + word_size 4
time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -outfmt 7 -evalue 0.01 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Время: 27,5145 с
3. default + word_size 4
time blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna3.txt -outfmt 7 -evalue 0.01 -word_size 4
Время: 20,878 с
Добавляем еще 3 столбца с числом находок в файл Excel. Итоговый файл: trna.xls.
4. Анализ результатов
Количество находок наиболее значительно увеличивается при изменении длины слова (мы все-таки поставили минимальное значение). Это хорошо заметно,
особенно если сравнить значения в самой первой и последней колонках.
При изменении "стоимости" гэпов и штрафа за несовпадение количество находок также в общем увеличилось, значит, эти параметры слабее, чем по умолчанию.
Время работы программы при изменении параметров (особенно - параметра длины слова) также заметно увеличивается, наверняка из-за увеличения количества находок.
Выбираем пару последовательностей: BSn5_t20972 и AL591984. Последняя находится только при минимальной длине слова. Вырезаем участок из AL591984 командой seqret -sask, получаем файл homo_bacsu.fasta; потом выравниваем:
needle homo_bacsu.fasta trna_bacsu.fasta:BSn5_t20972
Получаем:
AL591984 1 ggtcctgtagctcagttgg---gagagtatcac-cttgacatg-gtgggg 45 ||.||||||||||||.||| |||.| ||| |.|||.|.| || |.| BSn5_t20972 1 gggcctgtagctcagctggttagagcg---cacgcctgataagcgt-gag 46 AL591984 46 gtcgctggttcgagaccagtcgggacca--- 73 ||||.|||||||||.|||.||.||.||| BSn5_t20972 47 gtcggtggttcgagtccactcaggcccacca 77
Характеристики:
Length: 81 Identity: 57/81 (70.4%) Similarity: 57/81 (70.4%) Gaps: 12/81 (14.8%) Score: 185.0
Смотрим в запись EMBL этого гомолога:
FT tRNA 211362..211434 FT /product="transfert RNA-Val" FT /note="tRNAscan-SE vs 1.3 result - Cove score = 68.03" FT RBS complement(213481..213486) FT /gene="lmo2843"
Оказалось, что это действительно тРНК! В отличие от исходной, переносящей изолейцин, эта трНК переносит валин.