Задание 1 обязательно для зачёта темы. Дополнительно для зачёта необходимо выполнить еще .... заданий. Сойдемся на еще одном, с учетом того, что у студентов время защиты курсовых.
1. Вычислите сколько разных последовательностей ДНК могут кодировать данную последовательность аминокислот
Вариант выберите самостоятельно
- MRDYIRETQGALEQFNMQN
- MMQNSHSGVNQLGGVFVNGRPL
- MCEAFYCESGQTSEISEPHIR
- MLGITQALGREAEKLSRIPSINHV
- MPQKEYYNRATWESGVAS
Последовательности являются фрагментами последовательностей нативных белков.
Вычислите нужное число.
Оцените порядок величины для белка длины 100 аминокислотных остатков.
[ Указание ] [ однобуквенный код аминокислот ]
2. Найдите все ATG последовательности, расположенные до 269й буквы в геноме SARS-CoV-2. Опишите их соответствие или не соответствие последовательности Козак
Геном в формате .fasta можно получить по ссылкам с сайта coronavirus SARS-CoV-2 Выберите геном из колонки RefSeq. Разберитесь как скачать геном в формате .fasta
Лого последовательности Козак найдете в презентации
В отчете напишите выводы.
3.(*) Найдите TRS последовательности перед поздними генами в геноме SARS-CoV-2
Посложнее будет.
Последовательность похожа на CTAAAC, могут быть отличия - эволюция идет.
Одна - в лидерной области 1-266, до гена полипротеина
Одна - перед каждым поздним геном, положим 100 нуклеотидов до ATG.
Могут быть отличия в 1-2-3 нуклеотида от TRS в лидере. Совпадения могут быть до или после. Длина консервативной часть не менее шести нуклеотидов.
Адрес записи с геномом см. в задании 2. Координаты поздних генов можно найти в записи с геномом в формате GenBank или как-нибудь еще.
4. Выберите бактерию. Определите сколько генов белков в ней. Функция какого процента генов неизвестна
В отчете укажите
- латинское название бактерии
- код записи с геномом
- Что про нее известно (wiki, google, статьи) с указанием источника
- адрес хромосомной таблицы со списком генов
- длина генома в п.н., число генов белков, число и процент генов, функция которых неизвестна (hypothetical proteins)
Как выбрать бактерию? Как хотите, например, поиском по названию инфекционного заболевания. Запомните латинское название бактерии и/или более высокого таксона.
Найти хромосомную таблицу можно так. На сайте базы NCBI Genomes по ссылке "Browse by Organism" => введите в окошко латинское название бактерии или более высокого таксона. В таблице найдите штамм такой, что в колонке level черный круг (что значит, что геном собран полностью). В крайней правой колонке Ftp две ссылки: R и G. Выберите R (база Refseq, в ней геномы лучше аннотированы, чем в G - GenBank) => R, хромосомная таблица лежит в файле с названием вроде такого: "GCF_000007825.1_ASM782v1_feature_table.txt.gz". Разархивируйте. Это текстовый файл, который хорошо открывается в Excel и др. подобных программах. Белки выделяются по слову CDS (CoDing Sequence) в первой колонке и слову with_proteins во второй (CDS without protein это псевдоген, т.е. когда то был геном, а потом "умер" из-за мутаций несовместимых с трансляцией гена) . У белков с неизвестной функцией обычно в колонке name написано hypothetical protein.