Учебная страница курса биоинформатики,
год поступления 2013
Правила получения зачёта блока 2
Вводятся две категории зачёта.
Стандартный зачёт
Параметры скрипта (имена файлов и др.) могут быть заданы в теле скрипта, не требуется их получение из командной строки.
- Защита скрипта из задания 2 практикума 7; в скрипте должен быть описан и использован класс Proteins.
- Защита скрипта, выполняющего этапы 1 и 2 задания 2 практикума 8.
Защита состоит в том, что преподаватель проверяет работу скрипта, потом открывает код и может спросить, что делает та или иная команда.
- Написание работающего скрипта на контрольной работе (или во время переписывания ее).
Будет предложено написать простой скрипт (на 10-20 строк)
Любой скрипт, использующий словарь (список скоро появится как практикум 10)
Зачёт повышенной сложности
Параметры скриптов (имена файлов и др.) должны задаваться в командной строки.
- Зачтенные задания, перечисленные в стандартном зачёте
- Защита скрипта, составляющего т.н. хромосомную таблицу из входного файла в формате Genbank (.gbk).
Cкрипт, выполняющий задание 3 из практикума 10 (скоро появится на сайте), с использованием словаря.
Хромосомная таблица
Файл должен называться <Family_name>_<gbk_file_name>_genes.txt. Пример:
Ivanov_NC_111222_genes.txt
- Первая строка таблицы должна содержать названия колонок.
- Одна строка таблицы (кроме первой) соответствует одному гену, кодирующему один белок. Включения в хромосомную таблицу генов, кодирующих РНК, в задании не требуется.
- Для получения строки разбирается информация, относящаяся к ключу (feature_key) каждой CDS. CDS с форматом координат, отличным от двух, примеры которых приведены ниже, анализируются, но координаты можно указать так: начало 0, конец 0, ориентация 1.
Примеры:
CDS 123..847 CDS complement(245..1200)
- Колонки в таблице такие:
- locus_tag
- first_nuc
- last_nuc
- orientation
- gene_name
- refseq_protein_id
- Добавление колонки product не является обязательным, но за нее даются дополнительные баллы. Трудность в том, что значение квалификатора /product="..." может переходить (и часто переходит) на следующие строки.
- Разделителем полей в строке служит табулятор ("\t")
Получение дополнительных данных (расшифровка координат с join(...) и <100..457, колонки function и note и др., добавление генов РНК) оцениваются дополнительными баллами.
Пояснения
- Выполнение других заданий практикума не является обязательным для получения зачёта блока. За них идут дополнительные баллы из практикумов.
- Баллы за выполнение заданий зачёта повышенной сложности, естественно, повышаются.
Under construction!