1. 1. Работа с программой getorf пакета EMBOSS
Выполнена команда:
getorf -sequence d89965.fasta -minsize 30 -table 0 -find 1 -outseq d89965.orf
Программа getorf осуществляет поиск открытых рамок считывания последовательности
-sequence d89965.fasta файл с последовательностью на входОткрытая рамка считывания
-minsize 30 минимальная длина рамки (по умолчанию 30)
-table 0 таблица генетических кодов (можно не писать, по уполчанию 0)
-find 1 открытая раамка считывания включает стоп-кодон
-outseq d89965.orf файл с результатом
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
соответствует кодирующей последовательности (CDS).
Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (из записи UniProt), но не всей ,а только 28-125 остаткам ( длина всего белка-176 остатков):
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL IITGNGDVVQPENDLIAIGS
Последовательности совпадают почти полностью (если сделать выравнивание для всей последовательности Rattus norvegicus mRNA и белка HSLU_ECOLI, то выравнивание будет идентичным уже не 97, а 125 а.о.) , хотя они взяты из разных организмов:первая - из Rattus norvegicus , а вторая ( на которую ссылается данная запись EMBL) - из Escherichia coli . Такое несоответствие можно объяснить тем, что кодирующая последовательность в записи EMBL была определена неправильно: вместо крысы, возможно, была отсеквенирована кишечная палочка, которая жила в её пищеварительном тракте. На SwissProt мы полагаемся, так как это курируемая база данных.
2. Поиск гомологов некодирующих последовательностейпрограммой BLASTN
Файл с результатами3. Поиск гомологов при измененных параметрах программы BLASTN
1)blastn -query trna_bacsu.fasta -db hh -out trna2.fasta -evalue 0.01 -task blastn -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 62)
blastn -query trna_bacsu.fasta -db hh -out trna3.fasta -evalue 0.01 -task blastn -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 43)
blastn -query trna_bacsu.fasta -db hh -out trna4.fasta -evalue 0.01 -task blastn -outfmt 6 -word_size 4
Файл с результатами
4. Анализ результатов
При изменении значений -reward и -penalty от 2 до 5 и -3 до -4 соответственно в большинстве случаев число гомологов увеличилось или не изменилось. Однако встречалось и уменьшение числа гомологов, но таких случаев было гораздо меньше. При уменьшении длины слова количество гомологов увеличилось, и лишь в незначительном количестве случаев не изменилось.
Для анализа программой needlе были выбрана пара гомологов, которая есть при весовой матрице с парамтрами -reward 5 и -penalty -4, но отсутствует при стандартных значениях этих параметров. Это BSn5_t20966 на участке 5-63 и AL591977 на 46660-46717
query id subject id % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score BSn5_t20966 embl|AL591977|AL591977 76.27 59 13 1 5 63 46660 46717 2e-05 40.8
В результате парного выравнивания:
# Aligned_sequences: 2 # 1: BSn5_t20966 # 2: AL591977 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 59 # Identity: 45/59 (76.3%) # Similarity: 45/59 (76.3%) # Gaps: 1/59 ( 1.7%) # Score: 163.0 # # #======================================= BSn5_t20966 1 ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtgg 50 |.|||||||||.||| ||||||...||.|||.|||.||...|||||..|| AL591977 1 cagtagctcagttgg-tagagcaatcggctgttaaccgatcggtcgcagg 49 BSn5_t20966 51 ttcgagtcc 59 ||||||||| AL591977 50 ttcgagtcc 58
Следует обратить внимание, что выравниваемые последовательности тРНК различаются г.о. в центре (соответствующем антикодоновой петле), а их края (соответствующие акцепторному черешку) вообще не выровнялись, это напрямую связано с функциями этих тРНК. Дело в том, что гомологичный участок является частью последовательности, продуктом которой является tRNA-Asn (в соответствии с полем FT записи EMBL, описывающей геном бактерии). Продуктом же BSn5_t20966 является tRNA-Ile.