Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Задания для практикума 14

Результаты выполнения данных заданий необходимо отправить в виде ссылки colab на почту pymsu@mail.ru. Обратите внимание, что если вы не откроете доступ к тетради, мы не сможем ее проверить!

При выполнении данных заданий вам могут понадобиться скрипты, написанные в ходе решения задач для системы ejudge.

Скачайте кодирующие последовательности бактерий из списка. (Send to -> Coding sequences -> Fasta)

  1. Bacillus subtilis https://www.ncbi.nlm.nih.gov/nuccore/NZ_LN680001.1

  2. Peptoclostridium acidaminophilum https://www.ncbi.nlm.nih.gov/nuccore/NZ_CP007452.1

  3. Ureaplasma urealyticum parvum https://www.ncbi.nlm.nih.gov/nuccore/NC_002162.1

Задание 1.

Для каждой из бактерии посчитайте, какие старт-кодоны ею используются. Опишите наблюдаемый результат и попробуйте сформулировать, почему может использоваться не только ATG старт кодон.

Указание: причин несколько. Чем больше предложите - тем лучше. Возможно, в случае совсем редких старт-кодонов стоит посмотреть описание последовательностей, где они встретились.

Задание 2.

Для Peptoclostridium выберите только те кодирующие последовательности, в которых содержится стоп-кодон НЕ в конце последовательности

Для каждой такой последовательности, опираясь на description, объясните, почему в ней встретился стоп-кодон.

* Зачем бактерии эти последовательности?

Задание 3

Для каждой из бактерий посчитайте частоты стопкодонов. Есть ли что-то необычное в случае Ureaplasma? Поищите “пропавший” стоп-кодон в кодирующих последовательностях Как думаете, что в них стало с одним из стоп-кордонов?

Подтвердите свои предположения ссылками на научную литературу (Википедия и популяризаторы не являются научной литературой).

* Можете также сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков. Но это нетривиально.

Задание 4

Выберите гены, содержащие в описании координат join для Bacillus subtilis и Peptoclostridium.

1. Что оно означает?

2. Есть ли у бактерий сплайсинг?

3. Как можно объяснить наличия join для генов, что вы нашли?

Задание 5

Посчитайте cumulative GC-skew для любой из бактерий с окном 100000 и шагом 1000 для всей последовательности генома. Постройте график этой зависимости средствами Excel или python.

Найдите точки экстремума cumulative GC-skew. Основываясь на информации из интернета - чему они соответствуют в геноме?

Задание 6(Дополнительное)

Скачайте геном человека по ссылке https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz. Важно использовать именно эту сборку!

Скачайте данные с координатами сплайсинга по ссылке https://drive.google.com/file/d/1EIsEN-sjfm2du8E8Gl1aGcxLK9Pk8WcW/view?usp=sharing

Вырежьте последовательности всех сайтов сплайсинга в файле, отделяя донорные сайты от акцепторных.

!!! Будьте внимательны с определением того, как именно необходимо преобразовать координаты в файле для того, чтобы получить координаты сайтов.

Посчитайте сколько раз какая последовательность сайта сплайсинга встретилась в случае донорных и акцепторных сайтов. Согласуется ли это с общепринятой информацией?

2024/1/pr14 (последним исправлял пользователь pdd 2024-12-06 02:56:51)