Учебная страница курса биоинформатики,
год поступления 2023
Задания для практикума 12
Результаты выполнения данных заданий должны быть выложены на сайте студента. Необходимо записываться в очередь на проверку
При выполнении данных заданий вам понадобятся скрипты, написанные в ходе решения задач для системы ejudge.
Скачайте кодирующие последовательности бактерий из списка. (Send to -> Coding sequences -> Fasta)
Escherichia coli str. K-12 substr. MG1655 https://www.ncbi.nlm.nih.gov/nuccore/U00096.3
Candidatus Gracilibacteria bacterium 28_42_T64 https://www.ncbi.nlm.nih.gov/nuccore/CP042461.1
Mycoplasma pneumoniae M29 https://www.ncbi.nlm.nih.gov/nuccore/NZ_CP008895.1
Задание 1.
Для каждой из них посчитайте, какие старт-кодоны используются данной бактерии. Опишите наблюдаемый результат и попробуйте сформулировать, почему может использоваться не только ATG старт кодон. Указание: причин несколько. Чем больше предложите - тем лучше. Возможно, в случае совсем редких старт-кодонов стоит посмотреть описание последовательностей, где они встретились
Задание 2.
Для первой бактерии выберите только те кодирующие последовательности, в которых содержится стоп-кодон НЕ в конце последовательности Для каждой такой последовательности, опираясь на description, объясните, почему в ней встретился стоп-кодон.
Задание 3
Для каждой из бактерий посчитайте частоты стопкодонов. Что случилось со второй и третьей бактериями? Поищите “пропавший” стоп-кодон в кодирующих последовательностях бактерий Как думаете, что в них стало с одним из стоп-кордонов? Подтвердите свои предположения ссылками на научную литературу (Википедия и популяризаторы не являются научной литературой). *Можете также сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков.
Задание 4
Для каждой из бактерий посчитайте частоты используемости каждого из кодонов, кодирующих лейцин. Сравните частоты используемости. Предположите: 1. Чем обусловлена разница или ее отсутствие частоты используемости разных кодонов отличаются в пределах одной бактерии? 2. Аналогично - для разных бактерий
Задание 5
Посчитайте cumulative GC-skew для первой бактерии с окном 100000 и шагом 1000 для всей последовательности генома. Постройте график этой зависимости средствами Excel или python. Найдите минимум и максимум cumulative GC-skew. Основываясь на информации из интернета - чему они соответствуют в геноме? В случае минимума - вы можете проверить свой вывод, открыв страницу бактерии в формате genbank и найдя строчку oriC (ctrl-F или скачайте файл и ищите редактором/Python)
Задание 6.
Используя файл в формате genbank, или любой другой формат, где содержатся координаты кодирующих последовательностей в геноме бактерии, для каждой кодирующей последовательности вырежете последовательность из 20 нуклеотидов до старт-кодона (учитывайте ориентацию последовательности).
Посчитайте в полученных последовательностях частоту 6-меров. Какие 6-меры встречаются чаще всего? Чем это можно объяснить