Учебная страница курса биоинформатики,
год поступления 2022
Цель заданий: Попробовать разные алгоритмы поиска BLAST через веб-интерфейс и локально.
Результат: Страница на Вашем сайте с результатами поиска со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 31-ого октября 2023 г.. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).
1. Попробуйте разные варианты BLAST для фрагмента ДНК
Выберите участок в геноме вашего эукариотического организма, внутри которого содержится по крайней мере одна CDS (вашего = выбранного на прошлом практикуме, далее просто "вашего"). Выберите участок таким образом, чтобы CDS попала в него полностью, но кроме нее была и не кодирующая обрасть. Ориентируйтесь на длину порядка 1000 – 10000 п.н.
- Приведите в отчете:
Идентификатор нуклеотидной записи, откуда был взят фрагмент
Координаты фрагмента в записи и его длину (координаты можно в формате от..до или иным способом).
Схему расположения аннотированных элементов в выбранном фрагменте (например, в геномном браузере на сайте NCBI: поищите по идентификатору записи в базе Nucleotide, когда найдете запись – нажмите на ссылку Graphics в верхней части записи; в поле Find можно вводить в частности координаты в формате типа 100..2000). В подписи к картинке обязательно укажите, что на ней показано каким цветом! Можно также нарисовать схему расположения разных аннотированных элементов на выбранном контиге самостоятельно, исходя из их координат (для тех, кто не ищет легких путей и любит рисовать).
Описание того, что показано на картинке: есть ли гены, CDS, сколько их и т.п.
Ссылку на файл с последовательностью данного контига (или фрагмента) в FASTA-формате (ее можно получить с помощью того же геномного браузера на сайте NCBI: если выделить в нем фрагмент мышью, появится меню, и там можно выбрать опцию Download FASTA (Selection)).
Осуществите поиск BLAST по эукариотическим последовательностях из родственного таксона для выбранной последовательности.
Выберите целевой таксон, в котором вы будете осуществлять поиск: он должен отличаться на каком-то таксономическом уровне от того, к которому принадлежит ваш организм. В зависимости от того, какой организм вы выбрали, можно взять разные уровни родства таксона вашего организма и целевого таксона. Интереснее попробовать взять родню "подальше" (например, если взято млекопитающее – взять в качестве целевого таксона для поиска каких-либо рыб, или птиц, или амфибий и т.п; если цветковое растение – взять голосеменные, или мхи и т.п.), но нужно выбрать уровень далекого таксона таким образом, чтобы (А) какие-то находки нашлись и (Б) не было ситуации, когда первые 100 находок - практически идентичные последовательности из разновидностей. Отношения таксономии и таксономические идентификаторы можно узнать по видовому названию организма на NCBI Taxonomy.
В отчете опишите, какой таксон был выбран в качестве целевого для поиска, в каких отношениях он состоит с таксоном, к которому принадлежит ваш организм (например: "они являются отрядами одного класса такого-то", или: "выбранный таксон является сестринским по отношению к родительскому таксону такому-то" и т.п.)
Поиск проведите следующими методами BLAST: blastn, megablast, blastx, tblastx (укажите длину слова, которую использовали в каждом случае, а также другие параметры, которые по каким-то соображениям вы решили изменить). Обратите внимание, что максимальное количество находок в BLAST на сайте можно и нужно менять в зависимости от ситуации!.
Вы можете воспользоваться поиском BLAST на сайте NCBI или же BLAST на сайте EMBL EBI. Выбирайте вариант в зависимости от личных предпочтений и загруженности (иногда сервер BLAST в NCBI сильно висит, загруженный разными задачами). Обратите внимание: сервер EMBL EBI менее user-friendly, и там нужно подавать не названия таксономических единиц, а их идентификаторы по NCBI Taxonomy.
В отчете опишите свои наблюдения: например, сколько находок обнаружено каждым из методов (конечно, с каким-то разумным порогом значимости); есть ли примеры найденных гомологичных участков, которые отсутствуют в находках одного алгоритма, но присутствуют в находках других.
Для решения каких задач следует использовать каждый из алгоритмов blastn, megablast, blastx, tblastx? Приведите в протоколе примеры (не просто скопировав их из презентации, конечно).
2. Найдите в геноме эукариота гены основных рибосомальных РНК по далекому гомологу
Проиндексируйте последовательности генома вашего эукариота для работы локального BLAST (см. подсказки по BLAST) на своем компьютере или на сервере Kodomo с помощью makeblastdb. Приведите команду, которой это было сделано в протоколе (пользуйтесь тэгом <PRE> или другим способом выделить, что это не обычный текст).
Скачайте последовательности рРНК Escherichia coli из файла.
Проведите локальный поиск BLAST отдельно для каждой рРНК по полученной базе данных с помощью подходящего для данной задачи варианта BLAST. Приведите в протоколе команды, которыми это было сделано.
В протоколе опишите:
- Как называются последовательности рРНК, по которым вы проводите поиск? Какова их функция?
Какой вариант BLAST вы выбрали и почему для решения поставленной задачи? Какие использовали параметры?
Получилось ли найти гомологов выданных последовательностей рРНК? Сколько гомологов было найдено для каждой из них? Что, как Вы думаете, эти гомологи делают (вспомните, что у эукариот может быть несколько типов рибосом)? Приведите на странице ссылку на файл с результатами BLAST.
Есть ли аннотация у найденных участков в сборке? Если да, то какая – совпадает ли она с ожидаемой вами исходя из результатов поиска?