Kodomo

Пользователь

Задание по теме лекции 3

Для зачёта темы достаточно сделать любое одно упражнение из трёх нижеперечисленных

Отчёты присылайте на адрес sas@belozersky.msu.ru

  1. Доказать, что белки DnaK из разных суперцарств гомологичны
  2. Доказать, что число различных выравниваний двух последовательностей длин m и n равно числу сочетаний из n+m по m.

  3. Написать программу, принимающую на вход две последовательности и параметры выравнивания (цена совпадения, штраф за несовпадение, штраф за гэп) и выдающую оптимальное выравнивание.

Дополнительное упражнение (не заменяет одно обязательное из вышеприведённых трёх!)

  1. Сформулируйте формализованную задачу выравнивания двух текстов на человеческом (русском, английском, ...) языке, пригодную, например, для поиска плагиата

Указания к упр. 1

Постарайтесь понять, что означает звёздочка. Напишите обоснование: почему, глядя на это выравнивание, специалисты приходят к выводу, что все три белка гомологичны.

В отчёт включите само выравнивание (указание: чтобы колонки сохранились, необходимо отобразить буквы шрифтом постоянной ширины, например "Courier new") и обоснование гомологичности белков.

(* – дополнительно) Попробуйте понять, что означают точка и двоеточие под колонкой. Указание: см. матрицу BLOSUM62 в презентации или здесь.

Указания к упр. 2

Доказательство должно быть написано по правилам написания математических текстов: определения, формулировка, строгое доказательство.

Выравнивания считаются разными, если в них разные наборы пар сопоставленных букв. Например, вот здесь:

AGGCT-AG-
AG-C-CAGT

AGGC-TAG-
AG-CC-AGT

два одинаковых выравнивания (несмотря на разную расстановку гэпов), а вот это выравнивание:

AGGCTAG-
AG-CCAGT

отличается.

Указания к упр. 3

Входные последовательности лежат в отдельных файлах. Лучше, если программа будет брать имена файлов и параметры из командной строки, но возможны и другие варианты (запрос в интерактивном режиме, конфигурационный файл с именами и параметрами, …).

Желательно, чтобы программа понимала стандартный для биологических последовательностей формат fasta. В этом формате первая строка содержит в начале знак ">", затем (без пробела) имя последовательности; последующие строки содержат саму последовательность (пример см. в презентации, слайд 5). Желательно также, чтобы в выходном файле (с выравниванием) последовательности были бы помечены своими именами (см. слайд 6).

Если разбор входного формата вызывает затруднения, то можно обойтись без имён последовательностей, считая, что кроме самих последовательностей, входные файлы ничего не содержат.

Используйте алгоритм Нидлмана – Вунша в простейшем варианте (без аффинных штрафов за гэпы).

К программе обязательно должна прилагаться инструкция по её использованию.