Учебный сайт Николаевой Дарьи

BLAST

Для выполнения заданий данного практикума была взята аминокислотная последовательность белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор в базе данных RefSeq NP_214350). Данная последовательность доступна в формате fasta.

Задание 1.
В данном задании было необходимо найти последовательности из базы данных RefSeq Proteins, сходные с исходной последовательностью белка. Однако в этой базе данных было найдено слишком большое число "хороших" находок и отсутствовали "плохие" (данные термины будут объяснены позднее), что не подходит для выполнения этого задания. Поэтому поиск выполнялся по базе данных Swiss-Prot.

Для этого на сайте NCBI я выбрала программу BLAST, которая ищет схожие с искомой последовательности, затем выбрала protein blast, так как нужно найти сходные аминокислотные последовательности белков. В окно для искомой последовательности (Query Sequence) я скопировала последовательность моего белка в fasta-формате, затем в окне Database выбрала базу данных UniProtKB/Swiss-Prot, в поле Algorithms выбрала blastp (protein-protein BLAST), так как мы ведем поиск по последовательности белка.
Далее я внесла изменения в параметры алгоритма. Я изменила количество выводимых на экран находок (Max target sequences 20000 - чтобы получить максимальное число находок), остальные парметры были оставлены по умолчанию (штрафы за гэпы, ожидаемый порог по E-value, матрица и др.).

Здесь можно ознакомиться с параметрами поиска.
В результате такого запроса было получено 936 находок (Sbjct): 730 белки из организма бактерий, 55 - из организма архей, 151 принадлежат эукариотам. Для того, чтобы определить, какое число находок какой группе организмов принадлежит, я перешла по ссылке Formatting options, там в поле Organisms выбирала нужную группу, затем нажимала кнопку Reformat.

В Таблице 1 для лучшей, худшей находок и находки из середины списка были сравнены важнейшие показатели выравнивания:

длину выравнивания
bit score - характеристика, показывающая, насколько выравнивание "хорошее" (т. е. насколько сильно совпадает с Query), и нормированная на особенности матрицы. Чем выше bit score, тем лучше выравнивание.
процент идентичных остатков
процент сходных остатков

E-value - число находок с таким же или лучшим Score в случайном банке (чем оно меньше, тем лучше выравнивание)

В качестве лучшей находки была выбрана вторая с начала списка (так как первая непосредственно является последовательностью искомого белка): Aspartate aminotransferase [Bacillus sp. YM-2], в качестве худшей - последняя: Deoxyribose-phosphate aldolase [Corynebacterium glutamicum ATCC 13032], из середины списка: Histidinol-phosphate aminotransferase [Campylobacter curvus 525.92].

Таблица 1. Сравнение находок программы BLAST - последовательностей, похожих на последовательность белка NP_214350, по их характеристикам.

Находка	Название белка	Организм	Длина выравнивания	Bit score	Процент идентичных колонок, %	Процент сходных колонок, %	E_value
Лучшая	Aspartate aminotransferase	Bacillus sp. YM-2	392	412	52	69	3e-140
Из середины списка	Histidinol-phosphate aminotransferase	Campylobacter curvus 525.92	294	52.8	24	42	2е-06
Худшая	Deoxyribose-phosphate aldolase	Corynebacterium glutamicum ATCC 13032	73	30.4	32	50	9.7

Ниже приведены сами выравнивания выбранных последовательностей с исходной (Рис.1-3).

Изображение не загрузилось

Рис. 1. Выравнивание последовательности белка Aspartate aminotransferase из организма Bacillus sp. YM-2 с исходной.

Рис. 2. Выравнивание последовательности белка Histidinol-phosphate aminotransferase из организма Campylobacter curvus 525.92 с исходной.

Рис. 3. Выравнивание последовательности белка Deoxyribose-phosphate aldolase из организма Corynebacterium glutamicum ATCC 13032 с исходной.

Из всех полученных находок гомологами исходной последовательности можно считать 394. По условному критерию последовательность можно считать гомологичной, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Для того, чтобы найти находки-гомологи, я задала максимальный E-value 0.001 в Formatting options, отсортировала находки по убыванию Query cover и вручную отобрала нужные.
На Рис. 4 изображено графическое представление находок-гомологов (несмотря на то, что бы выбран режим графического отображения 1000 последовательностей, и последовательности были отсортированы по Query cover, графическое отображение максимально дает находки до 89% Query cover).

Рис. 4. Графическое представление находок-гомологов.

Однако вышеупомянутый критерий не всегда является истинным. Может быть так, что происходят довольно обширные индели при дивергенции организмов, поэтому значение Query cover будет ниже 70%, но гомологичность нельзя будет отрицать (особенно если организмы принадлежат к родственным группам). Поэтому с высокой вероятностью можно говорить о гомологичности последовательностей, если это один и тот же белок у родственных организмов, практически не взирая на значение Query cover. К сожалению, такой ситуации у меня не наблюдается, но очень интересное дело обстоит с белком Histidinol-phosphate aminotransferase из различных организмов. По условному критерию большая часть последовательностей этого белка считаются гомологами, а меньшая - нет. Но, вероятно, всю эту группу нужно рассматривать в целом и либо целиком не считать гомологами, либо целиком считать гомологами. Если причислить эти последовательности к числу гомологов, то придется считать "верными" Query cover 40% и E-value 0.33 (еще вариант - считать гомологами последовательности этого белка из организмов только бактерий).

Задание 2.
В этом задании я искала схожие с исходной последовательности в организме человека. Для этого я вернулась на страницу с параметрами запроса и в поле Organisms указала Human (Условия поиска). Там среди находок я выбрала последовательность Tyrosine aminotransferase, которая была также найдена в первоначальном запуске (для первоначального результата с помощью окна Formatting options я отобрала находки, относящиеся к человеку (Organism: Human), там нашла Tyrosine aminotransferase). О том, что это та же самая находка, свитедельствуют одинаковые название, Sequence ID: sp|P17735.1|ATTY_HUMAN и длина найденной последовательности (Length: 454).
У этих находок полностью совпадают выравнивание и Score, отличается только E-value: для последовательности из первоначального запуска 4е-32, для последовательности из второго запуска 2е-33. Такое изменение объяснимо: E-value показывает, насколько случайна полученная находка, и так как второй банк был меньше, то данная находка менее случайна.

Также я выполнила поиск по нуклеотидной последовательности гена, кодирующего tblastn (Условия поиска).
Было получено 15035 находок. Многим видам соответствовала не одна находка, а несколько (можно пронаблюдать в Taxonomy reports): Listeria monocytogenes - 16 находок, Bacillus anthracis (anthrax bacterium) - 22 находки, Bacillus subtilis - 9 находок, а также 127 находок соответствуют синтетически созданному гену, кодирующему данный белок. Помимо этого к одному виду могут относиться находки разных штаммов, а также последовательности отдельных участков генома.

Задание 3.
Для последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 (идентификатор в UniProtKB - Q9HUI9) было выполнено выравнивание (Условия поиска) и получена локальная карта сходства (Рис. 5):

Изображение не загрузилось

Рис. 5. Локальная карта сходства последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.

На Рис. 5 видны некоторые особенности полученного выравнивания (Рис. 6):

Последовательности совпадают почти на всем протяжении от 30 остатка до конца последовательностей (Query cover 92%).
Первая половина выравнивания "идеальна" (линия на рисунке сплошная) - содержит много консервативных и сходных позиций и не содержит гэпов.
Во второй половине выравнивания присутствуют 4 маленьких гэпа и 2 более протяженных, соответствующие инделям (пробелы на графике).

Нетипичный результат - выравниванию соответствуют не одна, а две находки (Рис. 7). Вторая находка (короткий отрезок под основным графиком) соответствует совпадению между началом последовательности Arginine-pyruvate transaminase AruH и участком из первой трети Query. Однако E-value этой находки 1.6, что свидетельствует о случайности полученного совпадения.

Изображение не загрузилось

Рис. 6. Выравнивание последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.

Рис. 7. Выравнивание второго участка последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.

Задание 4.
ДЛя выполнения данного задания я создала свою базу данных, полученную из выравнивания последовательностей из файла align_07.fasta, предварительно удалив все гэпы (файл msa.fasta). Для этого на сервере kodomo я запустила команду makeblastdb с параметром -dbtype prot - так был получен банк, содержащий 9 последовательностей.
Затем я совершила поиск последовательностей, схожих с моим белком (файл my.fasta) в полученной базе данных (команда blastp).
Всего программа признала значимыми 4 находки: участки последовательностей MOOTA (2 находки), THETN, EUBR3, DESOD.
Для лучшей находки (MOOTA 1 и 2) в Таблице 2 перечислены основные характеристики: длина выравнивания, % идентичных и сходных остатков, bit score и E-value, само выравнивание представлено на Рис. 8.

Таблица 2. Данные о лучшем результате работы программы BLAST по поиску последовательностей, похожих на последовательность белка NP_214350, в банке из файла msa.fasta - находке MOOTA.

Находка	Длина выравнивания	Bit score	Процент идентичных колонок, %	Процент сходных колонок, %	E_value
MOOTA (1 находка)	106	21.6	25	37	0.081
MOOTA (2 находка)	6	16.2	100	100	5.9

Рис. 8. Выравнивание последовательности белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор RefSeq NP_214350) с последовательностью MOOTA из нового банка.

О параметрах выравнивания по новой базе данных можно сказать то, что матрица и штрафы за гэпы совпадают с предыдущими запусками, но появляется такой параметр, как Neighboring words threshold со значением 11, а также есть параметр, относящийся к окну выдачи результатов (Window for multiple hits: 40).
Проанализировав в целом числовые данные и выраванивания, можно заключить, что длина выравниваний меньше, чем в предыдущих запусках программы (для большинства - значительно меньше), Bit score довольно небольшой, процент идентичных и сходных колонок примерно такой же (если длина выравнивания больше 20 остатков) или намного больше, чем в предыдущих выравниваниях, так как полученные выравнивания слишком маленькие. Что касается E-value, то его значение слишком большое для нового банка (при предыдущих запусках при уменьшении банка уменьшался и E-value), даже самое маленькое значение из имеющихся больше 0.001. Так как E-value большой, а Score маленький, то можно судить об отсутствии гомологии, так как полученные совпадения с высокой вероятностью случайны.