МФК "Биоинформатика", весна 2024
Задания по лекции 8
Для зачёта достаточно выполнить любой из двух вариантов задания.
Отчёты присылайте на адрес <sas AT belozersky DOT msu DOT ru>
Просьба подписываться в сопроводительных письмах и указывать адекватную тему e-mail'а.
Дедлайн — утро 10 апреля 2024.
Вариант 1: предсказание и аннотация генов
Этап 1. Предсказание
По адресу https://www.ncbi.nlm.nih.gov/nuccore/DASTGM010000001.1?report=fasta находится последовательность неаннотированного участка генома бактерии из рода Buchnera.
Скопируйте к себе в файл любой фрагмент этой последовательности длиной не менее 3000 букв. Добавьте название, для этого нужно перед последовательностью добавить одну строку, в ней поставить в самой первой позиции знак > и после него без пробелов написать латинскими буквами какое-нибудь название, например "my_Buchnera_sequence" (получится так называемый формат fasta, можете погуглить). Пример:
>Some_name AAAATAAAAAATAGTTCCTAAGAACTATTTTTTTTTAATTTTTTTAAAAAAATATGGATTTTTTTTATTT TTAAAGTGAAAAAGAATACTAGAATTTTTTATATTTAATTTTTCTTGAAAAAAATTTTTTAAATATTTTT
Зайдите на сайт GeneMark, это онлайн-сервис для предсказания генов в геномных последовательностях бактерий. Поместите в окошко последовательность выбранного фрагмента вместе с названием. Параметры не меняйте, запустите предсказание. В отчёте напишите, сколько генов предсказано, из них сколько на цепи, представленной вашей последовательностью (+ в колонке "Strand"), сколько на комплементарной цепи (–), предсказаны ли гены, не полностью попавшие в ваш фрагмент (знак "<" в колонке "LeftEnd" или ">" в колонке "RightEnd"). Посчитайте и напишите в отчёте, какой процент вашего фрагмента занимают предсказанные гены и какой — межгенные промежутки. К отчёту приложите файл с последовательностью фрагмента.
Этап 2. Аннотация
Выберите один из предсказанных генов, вырежьте его из своего фрагмента и включите в отчёт, оформив шрифтом постоянной ширины, например Courier New. В отчёте укажите координаты гена, на какой цепи он предсказан (+ или –), его первые три буквы (старт-кодон) и последние три (стоп-кодон).
Указание: чтобы не находить нужные координаты глазами, воспользуйтесь сервисом EMBOSS seqret. Укажите Sequence Type "DNA", в основное окно скопируйте свой фрагмент вместе с названием, в качестве выходного формата выберите "FASTA format". Раскройте меню "More options" и в окошке "SEQUENCE RANGE" напишите координаты гена. Если ген на комплементарной (–) цепи, в меню "REVERSE" отметьте "yes".
Зайдите на сайт BLAST. Выберите вариант "translated nucleotide → protein". В окошко скопируйте последовательность гена. Важно: укажите Database "swissprot". Запустите поиск. Опишите первые две-три находки: из какого организма белки, как они аннотированы, каковы процент покрытия вашего гена выравниванием и процент сходства найденного белка с трансляцией вашего гена. Постарайтесь сделать выводы: правильно ли предсказан ген и если да, то какова может быть функция соответствующего белка.
Вариант 2: реализация алгоритма Нидлмана – Вунша
Напишите программу, реализующую простейший вариант алгоритма Нидлмана – Вунша, с параметрами: +1 за совпадение букв, 0 за несовпадение, –1 за каждый гэп (линейные штрафы). Описание алгоритма см. в презентации, в Википедии или много где ещё (Google в помощь).
Требования
- Программа должна быть написана на Python (желательно), можно на C, С++, Java, Perl, в крайнем случае на R.
Программа запускается из командной строки, берёт последовательности из файла с именем "sequences.txt", первую последовательность из первой строки, вторую — из второй. Допустимый вариант: программа берёт последовательности из двух файлов, имена которых должны быть введены в командной строке как аргументы. В отчёте обязательно написать, как именно запускать программу и откуда она берёт входные данные!
- Программа выдаёт на консоль три строки: сначала вес выравнивания (целое число), потом первую выровненную последовательность (с гэпами в нужных местах), потом вторую.
- Программа должна быть протестирована на простейших входных данных, например, таких:
ATGC CATGC
ATCGC ATGC
ATGCAA TATCGC
В отчёте необходимо описать результаты тестирования.