Учебная страница курса биоинформатики,
год поступления 2013
Онлайн BLAST
NCBI BLAST, ENA Sequence Search
1. Поиск организма по фрагменту нуклеотидной последовательности
По заданному 300-нуклеотидному фрагменту, используя программу megablast, определите, из генома какой бактерии или археи взят данный фрагмент. В отчёте укажите организм, AC записи RefSeq, координаты данного фрагмента в записи, кодирующим или некодирующим он является, если кодирующим – что именно кодирует.
Указание: Программу megablast можно запустить на сайте NCBI, выбрав нуклеотидный blast (blastn) и указав алгоритм "megablast" (он стоит по умолчанию). В качестве банка выбирайте "refseq_genomic" (не "nr/nt", стоящий по умолчанию!). Ограничьте поиск бактериями и археями. В разделе Filters and Masking уберите галочку с параметра Low complexity regions.
2. Поиск гомолога белка человека в слоне
Выберите такой белок человека, для которого идентификатор в Swiss-Prot и ваша фамилия начинаются с максимального количества одинаковых букв. Получите последовательность данного белка. На сайте ENA проведите поиск гомолога этого белка в геноме африканского слона. Укажите в отчете e-value лучшей находки, длину и identity полученного выравнивания, координаты найденного гена в геноме слона, а также количество интронов в данном гене слона. Если для выбранного вами белка гомолога не нашлось, попробуйте другой белок.
Указания:
Чтобы получить полный список белков человека, идентификаторы которых начинаются с определенной буквы или букв, используйте следующую команду EMBOSS: infoseq sw:x*_human -only -name -desc -out file_name.txt , где X – нужная буква.
Файл с последовательностью белка с идентификатором XXXX_HUMAN можно получить командой seqret sw:xxxx_human -auto
- При поиске на сайте ENA выбирайте чекбокс "spliced translated nucleotide search" – это позволит искать не отдельные экзоны, а белок полностью.
3. Поиск некодирующих последовательностей программой BLAST
Найдите и вырежьте в отдельный файл последовательность любой тРНК из генома заданной бактерии. Проведите поиск гомологов данной последовательности по всем бактериям, относящимся к тому же порядку (order), что и ваша. Укажите в отчете число находок с e-value < 0,001. Поиск проведите тремя разными вариантами:
a. алгоритмом megablast;
b. алгоритмом blastn с параметрами по умолчанию;
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 (максимально чувствительные параметры, доступные на сайте)
Сравните полученные результаты.
Указания:
Скачать геном (в формате GenBank – файл(ы) с расширением gbk) или уже вырезанные тРНК бактерии (файл(ы) с расширением frn) можно через FTP-сервер NCBI.
Чтобы узнать, к какому порядку относится ваша бактерия, на сайте NCBI введите ее родовое название и укажите базу данных – "taxonomy". При наведении курсора мыши на названия вышестоящих таксонов появляются ранги этих таксонов; порядок = "order".
4*. Сравнение программ BLASTN и MegaBLAST.
В задании 3 посмотрите внимательно на род и семейство найденных бактерий. Сравните длины выравниваний для одних и тех же находок при разных параметрах поиска. Чем можно объяснить наблюдаемые различия?