Kodomo

Пользователь

Задание 1 обязательно для зачёта темы. Дополнительно для зачёта необходимо выполнить еще .... заданий. Сойдемся на еще одном, с учетом того, что у студентов время защиты курсовых.

1. Вычислите сколько разных последовательностей ДНК могут кодировать данную последовательность аминокислот

Вариант выберите самостоятельно

  1. MRDYIRETQGALEQFNMQN
  2. MMQNSHSGVNQLGGVFVNGRPL
  3. MCEAFYCESGQTSEISEPHIR
  4. MLGITQALGREAEKLSRIPSINHV
  5. MPQKEYYNRATWESGVAS

Последовательности являются фрагментами последовательностей нативных белков.

Вычислите нужное число.

Оцените порядок величины для белка длины 100 аминокислотных остатков.

[ Указание ] [ однобуквенный код аминокислот ]

2. Найдите все ATG последовательности, расположенные до 269й буквы в геноме SARS-CoV-2. Опишите их соответствие или не соответствие последовательности Козак

Геном в формате .fasta можно получить по ссылкам с сайта coronavirus SARS-CoV-2 Выберите геном из колонки RefSeq. Разберитесь как скачать геном в формате .fasta

Лого последовательности Козак найдете в презентации

В отчете напишите выводы.

3.(*) Найдите TRS последовательности перед поздними генами в геноме SARS-CoV-2

Посложнее будет.

Последовательность похожа на CTAAAC, могут быть отличия - эволюция идет.

Одна - в лидерной области 1-266, до гена полипротеина

Одна - перед каждым поздним геном, положим 100 нуклеотидов до ATG.

Могут быть отличия в 1-2-3 нуклеотида от TRS в лидере. Совпадения могут быть до или после. Длина консервативной часть не менее шести нуклеотидов.

Адрес записи с геномом см. в задании 2. Координаты поздних генов можно найти в записи с геномом в формате GenBank или как-нибудь еще.

4. Выберите бактерию. Определите сколько генов белков в ней. Функция какого процента генов неизвестна

В отчете укажите

Как выбрать бактерию? Как хотите, например, поиском по названию инфекционного заболевания. Запомните латинское название бактерии и/или более высокого таксона.

Найти хромосомную таблицу можно так. На сайте базы NCBI Genomes по ссылке "Browse by Organism" => введите в окошко латинское название бактерии или более высокого таксона. В таблице найдите штамм такой, что в колонке level черный круг (что значит, что геном собран полностью). В крайней правой колонке Ftp две ссылки: R и G. Выберите R (база Refseq, в ней геномы лучше аннотированы, чем в G - GenBank) => R, хромосомная таблица лежит в файле с названием вроде такого: "GCF_000007825.1_ASM782v1_feature_table.txt.gz". Разархивируйте. Это текстовый файл, который хорошо открывается в Excel и др. подобных программах. Белки выделяются по слову CDS (CoDing Sequence) в первой колонке и слову with_proteins во второй (CDS without protein это псевдоген, т.е. когда то был геном, а потом "умер" из-за мутаций несовместимых с трансляцией гена) . У белков с неизвестной функцией обычно в колонке name написано hypothetical protein.

5. На выравнивание. Перенесено в задание к Л10