Учебная страница курса биоинформатики,
год поступления 2012
Онлайн BLAST
NCBI BLAST, ENA Sequence Search
1. Поиск организма по фрагменту нуклеотидной последовательности
По заданному 300-нуклеотидному фрагменту, используя программу megablast, определите какому организму принадлежит данный фрагмент. Номер фрагмента соответствует номеру фамилии в списке. В отчёте укажите организм, AC записи RefSeq, координаты данного фрагмента в записи, кодирующим или некодирующим он является, если кодирующим – что именно кодирует.
Указание: Программу megablast можно запустить на сайте NCBI, выбрав нуклеотидный blast (blastn) и указав алгоритм "megablast" (он стоит по умолчанию).
2. Поиск гомолога белка человека в слоне
Выберите любой белок человека, идентификатор которого в Swiss-Prot начинается с той же буквы, что ваша фамилия. Получите последовательность данного белка. На сайте ENA проведите поиск гомолога этого белка в геноме африканского слона. Укажите в отчете e-value лучшей находки, длину и identity полученного выравнивания, координаты найденного гена в геноме слона, а также количество интронов в данном гене слона. Если для выбранного вами белка гомолога не нашлось, попробуйте другой белок.
Указания:
Чтобы получить полный список белков человека, идентификаторы которых начинаются с определенной буквы, используйте следующую команду EMBOSS: infoseq sw:x*_human -only -name -desc -out file_name.txt , где X – нужная буква.
Файл с последовательностью белка с идентификатором XXXX_HUMAN можно получить командой seqret sw:xxxx_human -auto
- При поиске на сайте ENA выбирайте чекбокс "spliced translated nucleotide search" – это позволит искать не отдельные экзоны, а белок полностью.
3. Поиск некодирующих последовательностей программой BLAST
Найдите и вырежьте в отдельный файл последовательность любой тРНК из генома заданной бактерии. Проведите поиск гомологов данной последовательности по всем бактериям, относящимся к тому же порядку, что и ваша. Укажите в отчете число находок с e-value < 0,001. Поиск проведите тремя разными вариантами:
a. алгоритмом megablast;
b. алгоритмом blastn с параметрами по умолчанию;
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 (максимально чувствительные параметры, доступные на сайте)
Сравните полученные результаты.
Указания:
Определить AC записи (или записей) EMBL, описывающих геном данной бактерии, можно через SRS или поиск в ENA.
Чтобы скопировать в свою рабочую директорию полную запись EMBL, можно воспользоваться командой entret embl:XX00000 -auto (скачивание занимает около минуты). Далее можно открыть файл в редакторе или вьюере и найти координаты тРНК. Вырезать нужный фрагмент в файл можно командой seqret <входной файл> <выходной файл> -sask. Программа задаст три вопроса, на которые нужно ответить так, чтобы был вырезан нужный фрагмент.
Чтобы узнать, к какому порядку относится ваша бактерия, на сайте NCBI введите ее родовое название и укажите базу данных – "taxonomy". При наведении курсора мыши на названия вышестоящих таксонов появляются ранги этих таксонов; порядок = "order".
4*. Сравнение программ BLASTN и MegaBLAST.
В задании 3 посмотрите внимательно на род и семейство найденных бактерий. Сравните длины выравниваний для одних и тех же находок при разных параметрах поиска. Чем можно объяснить наблюдаемые различия?