Учебная страница курса биоинформатики,
год поступления 2023
Цель заданий: Попробовать разные алгоритмы поиска BLAST через веб-интерфейс и локально.
Результат: Страница на Вашем сайте с результатами поиска со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 29-ого октября 2024 г.. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).
"Эукариот" тут и далее = выбранный Вами на прошлом практикуме эукариотический организм
См. также советы и указания к выполнению заданий.
1. Найдите в геноме эукариота ген, кодирующий δ-субъединицу АТФ-синтазы
С помощью текстового поиска найдите в файле с последовательностями белков эукариота белок, аннотированный как δ-субъединица АТФ-синтазы. Сохраните последовательность этого белка в формате FASTA отдельно.
Найдите идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок.
Получите последовательность ДНК, непосредственно содержащую ген δ-субъединицы АТФ-синтазы.
- Приведите на своей странице:
Идентификатор белка и его последовательность.
Идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок.
Ссылку на файл с последовательностью небольшой окрестности этого гена в FASTA-формате.
(НЕОБЯЗАТЕЛЬНО, но желательно) - изображение этой же небольшой окрестности из геномного браузера, с объяснением, что на рисунке показано.
2. Попробуйте разные варианты BLAST для фрагмента ДНК
Выберите одно из четырех семейств, в которых вы будете проводить дальнейший поиск BLAST, достаточно удаленное от исходного организма. Если выбранный Вами ранее эукариот относился к вторичноротым животным, то для этого задания нужно выбрать из таксонов первичноротых: либо Пауки (Araneae), либо Пчёлы (Apoidea). Если же выбранный эукариот относился к первичноротым, то Вам на выбор - Кошачьи (Felidae) или Собачьи (Canidae). Если же Ваш эукариот ни такой, ни такой, то - берите любой таксон из четырех! Они все подойдут.
Осуществите поиск BLAST через сайт NCBI по последовательностях геномов из выбранного таксона для последовательности гена δ-субъединицы АТФ-синтазы.
В качестве базы данных для поиска выбирайте вариант refseq_genomes.
Поиск проведите двумя методами BLAST: blastn\megablast (на выбор), tblastn\tblastx (на выбор).
Приведите в отчете:
Краткую постановку задачи – чтобы читателю, не знающему задание, было понятно, что Вы делали.
Выбранный таксон для поиска (с объяснением, почему Вы выбрали именно его – понятным для читателя, который не знает задания).
- Использованную базу данных и число сборок в ней, входящих в выбранный таксон.
- Длину слова, которую использовали в каждом случае, а также другие параметры, которые по каким-то соображениям вы решили изменить.
- Алгоритм, который Вы выбрали из предложенных вариантов в каждом случае, с обоснованием.
В отчете опишите свои наблюдения: сколько находок вы бы ожидали увидеть априори, сколько находок обнаружено каждым из методов (конечно, с каким-то разумным порогом значимости), одни и те же это находки или разные, справился ли алгоритм с поиском (обоснуйте свой ответ с помощью графического изображения результатов BLAST и / или текстового вида результатов).
3. Найдите в геноме эукариота гены основных рибосомальных РНК по далекому гомологу
Проиндексируйте последовательности генома вашего эукариота для работы локального BLAST (см. подсказки по BLAST) на своем компьютере или на сервере Kodomo с помощью makeblastdb. Приведите команду, которой это было сделано в протоколе (пользуйтесь тэгом <PRE> или другим способом выделить, что это не обычный текст).
Скачайте последовательности рРНК Escherichia coli из файла.
Проведите локальный поиск BLAST отдельно для каждой рРНК по полученной базе данных с помощью подходящего для данной задачи варианта BLAST. Приведите в протоколе команды, которыми это было сделано.
В отчете опишите:
- Как называются последовательности рРНК, по которым вы проводите поиск? Какова их функция?
Какой вариант BLAST вы выбрали и почему для решения поставленной задачи? Какие использовали параметры?
- Получилось ли найти гомологов выданных последовательностей рРНК? Сколько гомологов было найдено для каждой из них? Какова функция этих гомологов? Приведите на странице ссылку на файл с результатами BLAST.
Есть ли аннотация у найденных участков в сборке? Если да, то какая – совпадает ли она с ожидаемой вами исходя из результатов поиска?