Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Задания для практикума 12

Результаты выполнения данных заданий должны быть выложены на сайте студента. Необходимо записываться в очередь на проверку

При выполнении данных заданий вам понадобятся скрипты, написанные в ходе решения задач для системы ejudge.

Скачайте кодирующие последовательности бактерий из списка. (Send to -> Coding sequences -> Fasta)

  1. Escherichia coli str. K-12 substr. MG1655 https://www.ncbi.nlm.nih.gov/nuccore/U00096.3

  2. Candidatus Gracilibacteria bacterium 28_42_T64 https://www.ncbi.nlm.nih.gov/nuccore/CP042461.1

  3. Mycoplasma pneumoniae M29 https://www.ncbi.nlm.nih.gov/nuccore/NZ_CP008895.1

Задание 1.

Для каждой из них посчитайте, какие старт-кодоны используются данной бактерии. Опишите наблюдаемый результат и попробуйте сформулировать, почему может использоваться не только ATG старт кодон. Указание: причин несколько. Чем больше предложите - тем лучше. Возможно, в случае совсем редких старт-кодонов стоит посмотреть описание последовательностей, где они встретились

Задание 2.

Для первой бактерии выберите только те кодирующие последовательности, в которых содержится стоп-кодон НЕ в конце последовательности Для каждой такой последовательности, опираясь на description, объясните, почему в ней встретился стоп-кодон.

Задание 3

Для каждой из бактерий посчитайте частоты стопкодонов. Что случилось со второй и третьей бактериями? Поищите “пропавший” стоп-кодон в кодирующих последовательностях бактерий Как думаете, что в них стало с одним из стоп-кордонов? Подтвердите свои предположения ссылками на научную литературу (Википедия и популяризаторы не являются научной литературой). *Можете также сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков.

Задание 4

Для каждой из бактерий посчитайте частоты используемости каждого из кодонов, кодирующих лейцин. Сравните частоты используемости. Предположите: 1. Чем обусловлена разница или ее отсутствие частоты используемости разных кодонов отличаются в пределах одной бактерии? 2. Аналогично - для разных бактерий

Задание 5

Посчитайте cumulative GC-skew для первой бактерии с окном 100000 и шагом 1000 для всей последовательности генома. Постройте график этой зависимости средствами Excel или python. Найдите минимум и максимум cumulative GC-skew. Основываясь на информации из интернета - чему они соответствуют в геноме? В случае минимума - вы можете проверить свой вывод, открыв страницу бактерии в формате genbank и найдя строчку oriC (ctrl-F или скачайте файл и ищите редактором/Python)

Задание 6.

Разбор написания скрипта, который может помочь при выполнении данного задания, состоится 10.12.2021.

Используя файл в формате genbank, или любой другой формат, где содержатся координаты кодирующих последовательностей в геноме бактерии, для каждой кодирующей последовательности вырежете последовательность из 20 нуклеотидов до старт-кодона (учитывайте ориентацию последовательности).

Посчитайте в полученных последовательностях частоту 6-меров. Какие 6-меры встречаются чаще всего? Чем это можно объяснить

2022/1/pr13 (последним исправлял пользователь dimabosov 2022-12-14 19:00:23)