Учебная страница курса биоинформатики,
год поступления 2015
Контрольная работа 2
Сядьте за один из компьютеров. Выберите номер варианта по правилу: вариант = номер_компьютера % 2 + 1
Вариант 1
- Прочитать файл с выравниванием в формате ClustalW. Вывести строку, в которой для каждой позиции выравнивания стоит либо маленькая буква, соответствующая наиболее частой букве в позиции, либо заглавная буква, если данная позиция является полностью консервативной (и в ней встречаются только гэпы или одна и та же буква). Под ней вывести строку из цифр 0 и 1: 0 для позиций, в в которых более 50% гэпов, 1 в остальных случаях.
Прочитать файл с выравниванием в формате ClustalW. Построить матрицу N*N, где N - количество типов аминокислот, содержащую среднее количество замен аминокислоты A на аминокислоту B в колонке (гэп считать отдельной аминокислотой). Для этого в каждой колонке подсчитываем число пар аминокислот (A, B) и потом усредняем это число по всем колонкам (делим на количество колонок в выравнивании).
- На вход программе подается 2 файла - файл с множественным выравниванием в формате ClustalW и файл с безделеционным парным выравниванием в формате fasta. На основе множественного выравнивания построить матрицу замен аминокислотных остатков. Она строится аналогично тому, как матрица, описанная в задании 2. Но в каждой ячейке матрицы лежит не среднее количество замен, а log( f (α, β) / f (α) f ( β) ), где f (α, β) - среднее количество замен для пары (α, β), f (α) - среднее количество буквы α в колонке. Затем посчитать вес парного выравнивания как сумму весов его колонок (вес колонки берется из матрицы замен).
- Разделить программу из задачи 3 на 2 части (отдельные программы). Первая часть берет на вход множественное выравнивание, строит по нему матрицу замен и сохраняет ее в файл (имя файла - параметр командной строки). Вторая часть получает на вход парное выравнивание с делециями в формате fasta, файл с матрицей замен и штрафы за открытие (d_open) и продление делеции (d_ext), и считает вес выравнивания. При этом за каждую серию идущих подряд делеций (в любой из последовательностей) добавляется штраф в размере d_open+d_ext*L, где L - длина делеции.
Материалы:
Вариант 2
Дан файл в формате GenBank, содержащий один прокариотический геном. Посчитать среднюю длину кодирующей области на каждой цепи (кодирующими областями считать CDS). Посчитать частоты кодонов кодирующей части.
На вход программе подаётся файл а формате GenBank с описанием фрагмента ДНК и генов бактерий, закодированных на этом фрагменте. Программа выдаёт три колонки. Первая колонка содержит последовательность ДНК, вторая соответствующую последовательность белка для генов на положительной цепи, а третья на отрицательной. Последовательности белков хранятся в поле \translation (CDS) соответствующего гена. Все свободные места между буквами белка заполняются "стрелочками" (v и ^), указывающими направление гена.
На вход программе подаётся файл а формате GenBank с описанием фрагмента ДНК и генов эукариот, закодированных на этом фрагменте. Программа выдаёт тело фрагмента ДНК в виде колонки (см. задание 3)с подписанными справа последовательностями белков, считываемых с соответствующих позиций. Координаты экзонов хранятся в поле CDS, последовательность белков необходимо получить из последовательности ДНК. При наличии нескольких вариантов CDS, соответствующих одному и тому же участку ДНК, они пишутся в соседних колонках. Все свободные места между буквами белка заполняются "стрелочками" (v и ^), указывающими направление гена. Интроны заполняются точками.
Разбить задачу 3 на две программы. На вход первой программе подаётся файл в формате GenBank с описанием фрагмента ДНК и генов эукариот, закодированных на этом фрагменте. Программа выдаёт тело фрагмента ДНК в виде колонки (см. задание 2), а справа в колонках для каждого транскрипта указывает "стрелочки" (v и ^) без последовательности белка, указывающие направление гена в данной области. Координаты экзонов хранятся в поле CDS. При наличии нескольких вариантов сплайсинга, соответствующих одному и тому же гену, они пишутся в соседних колонках. Интроны заполняются точками. Имя выходного файла - параметр командной строки.
Вторя программа берет на вход полученный файл, и на его основе строит аналогичный выходному в задаче 3, с подписанными справа последовательностями белков, считываемых с соответствующих позиций. Последовательности белков необходимо получить из последовательности ДНК (протранслировать). Файл с таблицей соответствия триплетов аминокислотам передать как параметр командной строки. Все свободные места между буквами белка остаются заполнены "стрелочками" (v и ^), указывающими направление гена. Интроны заполнены точками.
Материалы:
Примеры бактериальных геномов в формате GenBank (для заданий 1, 2, 3).
Пример эукариотических генов в формате (для задания 4).