Учебная страница курса биоинформатики,
год поступления 2024
Задания для практикума 14
Результаты выполнения данных заданий должны быть выложены на сайте студента. Необходимо записываться в очередь на проверку
При выполнении данных заданий вам понадобятся скрипты, написанные в ходе решения задач для системы ejudge.
Скачайте кодирующие последовательности бактерий из списка. (Send to -> Coding sequences -> Fasta)
Bacillus subtilis https://www.ncbi.nlm.nih.gov/nuccore/NZ_LN680001.1
Peptoclostridium acidaminophilum https://www.ncbi.nlm.nih.gov/nuccore/NZ_CP007452.1
Ureaplasma urealyticum parvum https://www.ncbi.nlm.nih.gov/nuccore/NC_002162.1
Задание 1.
Для каждой из бактерии посчитайте, какие старт-кодоны ею используются. Опишите наблюдаемый результат и попробуйте сформулировать, почему может использоваться не только ATG старт кодон.
Указание: причин несколько. Чем больше предложите - тем лучше. Возможно, в случае совсем редких старт-кодонов стоит посмотреть описание последовательностей, где они встретились.
Задание 2.
Для Peptoclostridium выберите только те кодирующие последовательности, в которых содержится стоп-кодон НЕ в конце последовательности
Для каждой такой последовательности, опираясь на description, объясните, почему в ней встретился стоп-кодон.
* Зачем бактерии эти последовательности?
Задание 3
Для каждой из бактерий посчитайте частоты стопкодонов. Есть ли что-то необычное в случае Ureaplasma? Поищите “пропавший” стоп-кодон в кодирующих последовательностях Как думаете, что в них стало с одним из стоп-кордонов?
Подтвердите свои предположения ссылками на научную литературу (Википедия и популяризаторы не являются научной литературой).
* Можете также сравнить частоту использования аминокислот согласно нуклеотидным кодирующим последовательностям и согласно последовательностям белков. Но это нетривиально.
Задание 4
Выберите гены, содержащие в описании координат join для Bacillus subtilis и Peptoclostridium.
1. Что оно означает?
2. Есть ли у бактерий сплайсинг?
3. Как можно объяснить наличия join для генов, что вы нашли?
Задание 5(Дополнительное)
Скачайте геном человека по ссылке https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz. Важно использовать именно эту сборку!
Скачайте данные с координатами сплайсинга по ссылке https://drive.google.com/file/d/1EIsEN-sjfm2du8E8Gl1aGcxLK9Pk8WcW/view?usp=sharing
Вырежьте последовательности всех сайтов сплайсинга в файле, отделяя донорные сайты от акцепторных.
!!! Будьте внимательны с определением того, как именно необходимо преобразовать координаты в файле для того, чтобы получить координаты сайтов.
Посчитайте сколько раз какая последовательность сайта сплайсинга встретилась в случае донорных и акцепторных сайтов. Согласуется ли это с общепринятой информацией?