Учебный сайт Софроновой Алины
Онлайн BLAST

Поиск организма по фрагменту нуклеотидной последовательности

        BLAST (англ. Basic Local Alignment Search Tool) — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент.
        По заданному 300-нуклеотидному фрагменту, используя программу megablast, я нашла какому организму принадлежит этот участок генома. Поиск производился в BLASTN в банке refseq_genomic. В разделе Filters and Masking уберала галочку с параметра Low complexity regions. В результате запроса были найдены 2 находки, представлены на Рис.1.


Рис.1. Результат megablast по заданному 300-нуклеотидному фрагменту.

        Индентичность первой записи 100%, значит эта именно та находка, которая соответствует организму, из которого был взят данный фрагмент генома. Геном принадлежит архее Methanothermobacter thermautotrophicus штамм Delta H (хотя в задании указано найти бактерию). AC записи в базе данных RefSeq - NC_000916.1. Координаты нашего фрагмента в геноме - 1145..1444. Прочитав полную запись в банке RefSeq, я не обнаружила в ней CDS с нужными мне координатами,но зато этот фрагмент входил в CDS с координатами 1-3433 - кодирует гипотетический белок с идентификатором NP_275640.1.

Поиск гомолога белка человека в слоне

        В качестве белка человека я выбрала такой, для которого идентификатор в Swiss-Prot и моя фамилия (Sofronova) начинаются с максимального количества одинаковых букв. Для получения полного списка белков человека, идентификаторы которых начинаются с определенной буквы или букв, используют следующую команду EMBOSS:infoseq sw:x*_human -only -name -desc -out file_name.txt, где X - нужная буква или буквы. В итоге был получен файл file_name.txt, где вместо X я использовала буквы SO (c первыми буквами SOF идентификаторов не было). Из полученного списка я выбрала белок с индентификатором SOM2_HUMAN - Growth hormone variant (GH-V) (Growth hormone 2) (Placenta-specific growth hormone) (Precursor) (предшественник гормона роста, специфичный для плаценты). Для него была полученна нуклеотидная последовательность. Команда - seqret sw:SOM2_human -auto, файл - som2_human.fasta. На сайте ENA я произвела поиск гомолога моего белка в геноме африканского слона (Loxodonta africana). При поиске я использовала чекбокс "spliced translated nucleotide search" – позволяет искать не отдельные экзоны, а белок полностью. В результате был найден один гомолог (Рис.2).


Рис.2. Результат поиска гомологов ENA по заданной последовательности белка SOM2_HUMAN.

        Обозначу некоторые параметры этой находки: E-value - 7E-20, identity - 63%, длина выравнивания 65 аминокислотных остатков (координаты 153-217), интронов нет.

Поиск некодирующих последовательностей программой BLAST

        Из генома заданной мне бактерии Shewanella frigidimarina штамм NCIMB 400 (NC_008345.frn) я выбрала последовательность тРНК c координатами в геноме 15197..152046 (ген Sfri_R0011). Моя бактерия относится к порядку Alteromonadales. Внутри этого порядка я провела поиск гомологов данной последовательности тремя разными вариантами:

a. алгоритмом megablast - 32 находок с E-value < 0,001 (параметры те же, что и в 1 задании)
b. алгоритмом blastn с параметрами по умолчанию - 74 находок с E-value < 0,001
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 - 74 находок с E-value < 0,001.

        Анализируя результаты можно предположить, что алгоритм megablast ориентирован на сильное совпадение последовательностей, ищет очень близкие гомологи(нашел наименьшее число гомологов). Blastn находит помимо тех же хитов менее похожие поледовательности на исходную. Blastn с обычными параметрами ищет близкие гомологи. И, наконец, blastn с максимально чувствительными параметрами находит наибольшее количество похожих поледовательностей, пытается найти любые гомологи. У меня получилось, что blastn с различными параметрами выдал одно и тоже (далее можно будет убедиться), причем для одной и той же находки E-value отличается.

Сравнение программ BLASTN и MegaBLAST

       Я сравнила рода и семейства найденных бактерий (Таблица 1). Результаты для blastn со стандартными параметрами и измененными полностью совпали. Megablast нашел бактерии только из того же рода (очень близкие гомологи), blastn нашел гомологов и среди других семейств.

Таблица 1. Количество находок для каждого семейства и рода порядка Alteromonadales для megablast, blastn(стандартный), blastn(измененный).
Семейство Род megablast blastn(стандартный) blastn(измененный)
Shewanellaceae Shewanella 32 34 34
Alteromonadaceae Alteromonas - 13 13
Marinobacter - 7 7
Glaciecola - 3 3
Saccharophagus - 1 1
Moritellaceae Moritella - 1 1
Idiomarinaceae Idiomarina - 3 3
Psychromonadaceae Psychromonas - 3 3
Pseudoalteromonadaceae Pseudoalteromonas - 5 5
Colwelliaceae Colwellia - 2 2
Ferrimonadaceae Ferrimonas - 1 1
Teredinibacter (таксономия не определена) - 1 1

        Что касается длин выравниваний для megablast для первых 20 находок длина совпадает с таковой у тРНК (74), для последних 12 чуть меньше - 67, но гэпов не встретилось. Для blastn (напомню, что результаты сошлись) не сошлись длины выравниваний, у blastn со стандартными параметрами длина меньше, чем с чувствительными. Для рода Shewanella гэпы нигде не встречаются, для других же родов и семейств гэпы обязательно присутствуют.



Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 20.10.2014