Учебная страница курса биоинформатики,
год поступления 2021
Цель заданий: Попробовать разные алгоритмы поиска BLAST через веб-интерфейс и локально.
Результат: Страница на Вашем сайте с информацией о выбранной сборке со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 1-ого ноября 2022 г.. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).
1. Попробуйте разные варианты BLAST для короткого контига
Выберите короткий контиг в геноме вашего эукариотического организма (выбранного на прошлом практикуме, далее просто "вашего"), который содержит по крайней мере одну CDS. Ориентируйтесь на контиг длины порядка 1000 – 10000 п.н. Если такого контига в сборке нет, возьмите участок более крупного контига примерно такой длины, содержащий по крайней мере одну CDS.
- Приведите в отчете:
Идентификатор нуклеотидной записи данного контига (если взят фрагмент – также координаты фрагмента в контиге, далее то, с чем вы работаете, будет называться просто "контиг"), его длину (если взят фрагмент – то длину всего контига и длину выбранного фрагмента отдельно).
Схему расположения генов на данном контиге (например, в геномном браузере на сайте NCBI: поищите по идентификатору записи в базе Nucleotide, когда найдете запись – нажмите на ссылку Graphics в верхней части записи). В подписи к картинке обязательно укажите, что на ней показано каким цветом! Можно также нарисовать схему расположения разных аннотированных элементов на выбранном контиге самостоятельно, исходя из их координат (для тех, кто не ищет легких путей и любит рисовать).
Описание того, что показано на картинке: есть ли гены, CDS, сколько их и т.п.
Ссылку на файл с последовательностью данного контига (или фрагмента) в FASTA-формате.
Осуществите поиск BLAST по эукариотическим последовательностях для данного контига (или фрагмента), исключив из поиска близкие по таксономии виды. В зависимости от того, какой организм вы выбрали, это может быть исключение на разном уровне. На мой взгляд, интереснее попробовать исключить группу "повыше" (например, если взято хордовое животное – исключить хордовых, если цветковое растение – исключить цветковые и т.п.), но нужно выбрать уровень исключения таким образом, чтобы (А) какие-то находки нашлись и (Б) не было ситуации, когда первые 100 находок - практически идентичные последовательности из разновидностей.
В протоколе опишите, какой таксон был выбран для исключения. Таксономические идентификаторы можно узнать по видовому названию организма на NCBI Taxonomy.
Поиск проведите следующими методами BLAST: blastn, megablast, blastx, tblastx (укажите длину слова, которую использовали в каждом случае, а также другие параметры, которые по каким-то соображениям вы решили изменить). Обратите внимание, что максимальное количество находок в BLAST на сайте можно и нужно менять в зависимости от ситуации!.
Вы можете воспользоваться поиском BLAST на сайте NCBI или же BLAST на сайте EMBL EBI. Выбирайте вариант в зависимости от личных предпочтений и загруженности (иногда сервер BLAST в NCBI сильно висит, загруженный разными задачами). Обратите внимание: сервер EMBL EBI менее user-friendly, и там нужно подавать не названия таксономических единиц, а их идентификаторы по NCBI Taxonomy.
В протоколе опишите свои наблюдения: сколько находок обнаружено каждым из методов; есть ли примеры найденных гомологичных участков, которые отсутствуют в находках одного алгоритма, но присутствуют в находках других.
Для решения каких задач следует использовать каждый из алгоритмов blastn, megablast, blastx, tblastx? Приведите в протоколе примеры (не просто скопировав их из презентации, конечно).
2. Найдите в геноме эукариота гены основных рибосомальных РНК по далекому гомологу
Проиндексируйте последовательности генома вашего эукариота для работы локального BLAST (см. подсказки по BLAST) на своем компьютере или на сервере Kodomo с помощью makeblastdb. Приведите команду, которой это было сделано в протоколе (пользуйтесь тэгом <PRE> или другим способом выделить, что это не обычный текст).
Скачайте последовательности рРНК Escherichia coli из файла.
Проведите локальный поиск BLAST отдельно для каждой рРНК по полученной базе данных с помощью подходящего для данной задачи варианта BLAST. Приведите в протоколе команды, которыми это было сделано.
В протоколе опишите:
- Какие последовательности рРНК были выданы, что они делают?
Какой вариант BLAST вы выбрали и почему для решения поставленной задачи? Какие использовали параметры?
Получилось ли найти гомологов выданных последовательностей рРНК? Сколько гомологов было найдено для каждой из них? Что, как Вы думаете, эти гомологи делают (вспомните, что у эукариот может быть несколько типов рибосом)?
Есть ли аннотация у найденных участков в сборке? Если да, то какая – совпадает ли она с результатами поиска?