Задание 1. Работа с программой getorf пакета EMBOSS

Командная строка : getorf -sequence D89965 -minsize 30 -find 1 -outseq d89965.orf

Открытая рамка считывания, соответствующая приведённой в поле FT кодирующей последовательности (CDS):

>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQ
STNPVQKYGA

Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (28-125 из 176 а.о.)

>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL
IITGNGDVVQPENDLIAIGS

То, что в базах данных эти последовательности описаны как взятые из разных организмов, может быть объяснено ошибкой аннотирования кодирующей последовательности в базе Embl. Например, могли просеквенировать геном кишечной палочки, живущей в кишечнике крысы.

Задание 2 и 3. Поиск гомологов некодирующих последовательностей программой BLASTN при стандартных и измененных параметрах

В качестве базы данных использовался отформатированный геном бактерии L. monocytogenes

Командные строки:
Для стандартного поиска:
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_im_trna -evalue 0.01 -outfmt 7
Изменена весовая матрица (параметры reward, penalty, gapopen и gapextend):
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_reward -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7
Изменен параметр word_size на минимальный (word_size=4):
blastn -task blastn -query trna_bacsu.fasta -db lm -out blastn_word -evalue 0.01 -word_size 4 -outfmt 7
Изменены параметры веса и длины слов
blastn -task blastn -query trna_bacsu.fasta -db lm -out rewpenword -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 -word_size 4

Пример скрипта для подсчета количества найденных гомологичных последовательностей.
Результаты работы в виде таблицы

Задание 4. Анализ результатов

В таблице с результатами красным отмечены числа, отвечающие самому большому количеству гомологов. Видно, что, в основном, их количество увеличивается с "ослаблением" параметров. Хотя есть некоторые исключения. Для анализа программой needlе были выбрана пара гомологов, которая есть при весовой матрице с парамтрами -reward 5 и -penalty -4, но отсутствует при стандартных значениях этих параметров. Это BSn5_t20966 на участке 5-63 и AL591977 на 46660-46717

 query id          subject id          % identity  alignment length    
BSn5_t20966	embl|AL591977|AL591977     76.27	    59	    


  mismatches   gap opens  q. start	 
      13	       1	   5


q. end   s. start   s. end   evalue  bit score  
  63	    46660     46717   2e-05	40.8     


В результате парного выравнивания:

# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: AL591977
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 59
# Identity:      45/59 (76.3%)
# Similarity:    45/59 (76.3%)
# Gaps:           1/59 ( 1.7%)
# Score: 163.0
# 
#
#=======================================

BSn5_t20966        1 ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtgg     50
                     |.|||||||||.||| ||||||...||.|||.|||.||...|||||..||
AL591977           1 cagtagctcagttgg-tagagcaatcggctgttaaccgatcggtcgcagg     49

BSn5_t20966       51 ttcgagtcc     59
                     |||||||||
AL591977          50 ttcgagtcc     58

Мне кажется, что данный гомолог нашелся только при измененных параметрах -reward и -penalty, потому что увеличилась разница между "наградой" и "штрафом". Видно, что выравнивание, приведенное выше достаточно неплохое, но имеется много несовпадений главным образом, в середине последовательности. И, скорее всего, при начальных (по умолчанию) параметрах, вес этого выравнивания оказывается совсем невелик.