Задание 1. Работа с программой getorf пакета EMBOSS
Командная строка : getorf -sequence D89965 -minsize 30 -find 1 -outseq d89965.orf
Открытая рамка считывания, соответствующая приведённой в поле FT кодирующей последовательности (CDS):
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQ STNPVQKYGA
Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (28-125 из 176 а.о.)
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL IITGNGDVVQPENDLIAIGSТо, что в базах данных эти последовательности описаны как взятые из разных организмов, может быть объяснено ошибкой аннотирования кодирующей последовательности в базе Embl. Например, могли просеквенировать геном кишечной палочки, живущей в кишечнике крысы.
Задание 2 и 3. Поиск гомологов некодирующих последовательностей программой BLASTN при стандартных и измененных параметрах
В качестве базы данных использовался отформатированный геном бактерии L. monocytogenes
Командные строки:
Для стандартного поиска:
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_im_trna -evalue 0.01 -outfmt 7
Изменена весовая матрица (параметры reward, penalty, gapopen и gapextend):
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_reward -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7
Изменен параметр word_size на минимальный (word_size=4):
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_word -evalue 0.01 -word_size 4 -outfmt 7
Изменены параметры веса и длины слов
blastn -task blastn -query trna_bacsu.fasta -db lm -out rewpenword -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 -word_size 4
Пример скрипта для подсчета количества найденных гомологичных последовательностей.
Результаты работы в виде таблицы
Задание 4. Анализ результатов
В таблице с результатами красным отмечены числа, отвечающие самому большому количеству гомологов. Видно, что, в основном, их количество увеличивается с "ослаблением" параметров. Хотя есть некоторые исключения. Для анализа программой needlе были выбрана пара гомологов, которая есть при весовой матрице с парамтрами -reward 5 и -penalty -4, но отсутствует при стандартных значениях этих параметров. Это BSn5_t20966 на участке 5-63 и AL591977 на 46660-46717
query id subject id % identity alignment length
BSn5_t20966 embl|AL591977|AL591977 76.27 59
mismatches gap opens q. start
13 1 5
q. end s. start s. end evalue bit score
63 46660 46717 2e-05 40.8
В результате парного выравнивания:
# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: AL591977
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 59
# Identity: 45/59 (76.3%)
# Similarity: 45/59 (76.3%)
# Gaps: 1/59 ( 1.7%)
# Score: 163.0
#
#
#=======================================
BSn5_t20966 1 ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtgg 50
|.|||||||||.||| ||||||...||.|||.|||.||...|||||..||
AL591977 1 cagtagctcagttgg-tagagcaatcggctgttaaccgatcggtcgcagg 49
BSn5_t20966 51 ttcgagtcc 59
|||||||||
AL591977 50 ttcgagtcc 58
Мне кажется, что данный гомолог нашелся только при измененных параметрах -reward и -penalty, потому что увеличилась разница между "наградой" и "штрафом". Видно, что выравнивание,
приведенное выше достаточно неплохое, но имеется много несовпадений главным образом, в середине последовательности. И, скорее всего, при начальных (по умолчанию) параметрах, вес этого выравнивания
оказывается совсем невелик.
