Kodomo

Пользователь

МФК "Биоинформатика", весна 2024

Задания по лекции 8

Для зачёта достаточно выполнить любой из двух вариантов задания.

Отчёты присылайте на адрес <sas AT belozersky DOT msu DOT ru>

Просьба подписываться в сопроводительных письмах и указывать адекватную тему e-mail'а.

Дедлайн — утро 10 апреля 2024.

 

Вариант 1: предсказание и аннотация генов

Этап 1. Предсказание

По адресу https://www.ncbi.nlm.nih.gov/nuccore/DASTGM010000001.1?report=fasta находится последовательность неаннотированного участка генома бактерии из рода Buchnera.

Скопируйте к себе в файл любой фрагмент этой последовательности длиной не менее 3000 букв. Добавьте название, для этого нужно перед последовательностью добавить одну строку, в ней поставить в самой первой позиции знак > и после него без пробелов написать латинскими буквами какое-нибудь название, например "my_Buchnera_sequence" (получится так называемый формат fasta, можете погуглить). Пример:

>Some_name
AAAATAAAAAATAGTTCCTAAGAACTATTTTTTTTTAATTTTTTTAAAAAAATATGGATTTTTTTTATTT
TTAAAGTGAAAAAGAATACTAGAATTTTTTATATTTAATTTTTCTTGAAAAAAATTTTTTAAATATTTTT

Зайдите на сайт GeneMark, это онлайн-сервис для предсказания генов в геномных последовательностях бактерий. Поместите в окошко последовательность выбранного фрагмента вместе с названием. Параметры не меняйте, запустите предсказание. В отчёте напишите, сколько генов предсказано, из них сколько на цепи, представленной вашей последовательностью (+ в колонке "Strand"), сколько на комплементарной цепи (), предсказаны ли гены, не полностью попавшие в ваш фрагмент (знак "<" в колонке "LeftEnd" или ">" в колонке "RightEnd"). Посчитайте и напишите в отчёте, какой процент вашего фрагмента занимают предсказанные гены и какой — межгенные промежутки. К отчёту приложите файл с последовательностью фрагмента.

Этап 2. Аннотация

Выберите один из предсказанных генов, вырежьте его из своего фрагмента и включите в отчёт, оформив шрифтом постоянной ширины, например Courier New. В отчёте укажите координаты гена, на какой цепи он предсказан (+ или –), его первые три буквы (старт-кодон) и последние три (стоп-кодон).

Указание: чтобы не находить нужные координаты глазами, воспользуйтесь сервисом EMBOSS seqret. Укажите Sequence Type "DNA", в основное окно скопируйте свой фрагмент вместе с названием, в качестве выходного формата выберите "FASTA format". Раскройте меню "More options" и в окошке "SEQUENCE RANGE" напишите координаты гена. Если ген на комплементарной (–) цепи, в меню "REVERSE" отметьте "yes".

Зайдите на сайт BLAST. Выберите вариант "translated nucleotide → protein". В окошко скопируйте последовательность гена. Важно: укажите Database "swissprot". Запустите поиск. Опишите первые две-три находки: из какого организма белки, как они аннотированы, каковы процент покрытия вашего гена выравниванием и процент сходства найденного белка с трансляцией вашего гена. Постарайтесь сделать выводы: правильно ли предсказан ген и если да, то какова может быть функция соответствующего белка.

 

Вариант 2: реализация алгоритма Нидлмана – Вунша

Напишите программу, реализующую простейший вариант алгоритма Нидлмана – Вунша, с параметрами: +1 за совпадение букв, 0 за несовпадение, –1 за каждый гэп (линейные штрафы). Описание алгоритма см. в презентации, в Википедии или много где ещё (Google в помощь).

Требования

  1. Программа должна быть написана на Python (желательно), можно на C, С++, Java, Perl, в крайнем случае на R.
  2. Программа запускается из командной строки, берёт последовательности из файла с именем "sequences.txt", первую последовательность из первой строки, вторую — из второй. Допустимый вариант: программа берёт последовательности из двух файлов, имена которых должны быть введены в командной строке как аргументы. В отчёте обязательно написать, как именно запускать программу и откуда она берёт входные данные!

  3. Программа выдаёт на консоль три строки: сначала вес выравнивания (целое число), потом первую выровненную последовательность (с гэпами в нужных местах), потом вторую.
  4. Программа должна быть протестирована на простейших входных данных, например, таких:

ATGC
CATGC

ATCGC
ATGC

ATGCAA
TATCGC

В отчёте необходимо описать результаты тестирования.

Main/mf_2024s/task8 (последним исправлял пользователь sas 2024-03-27 08:07:16)