BLAST
Для выполнения заданий данного практикума была взята аминокислотная последовательность белка аспартатаминотрансферазы
из организма бактерии Aquifex aeolicus VF5 (идентификатор в базе данных RefSeq NP_214350). Данная последовательность доступна в формате fasta.
Задание 1.
В данном задании было необходимо найти последовательности из базы данных RefSeq Proteins, сходные с исходной последовательностью белка. Однако в этой базе данных было найдено
слишком большое число "хороших" находок и отсутствовали "плохие" (данные термины будут объяснены позднее), что не подходит для выполнения этого задания. Поэтому поиск
выполнялся по базе данных Swiss-Prot.
Для этого на сайте NCBI я выбрала программу BLAST, которая ищет схожие с искомой последовательности, затем выбрала protein blast, так как нужно найти сходные аминокислотные последовательности белков.
В окно для искомой последовательности (Query Sequence) я скопировала последовательность моего белка в fasta-формате, затем в окне Database выбрала базу данных UniProtKB/Swiss-Prot,
в поле Algorithms выбрала blastp (protein-protein BLAST), так как мы ведем поиск по последовательности белка.
Далее я внесла изменения в параметры алгоритма. Я изменила количество выводимых на экран находок (Max target sequences 20000 - чтобы получить максимальное число находок), остальные парметры были оставлены по умолчанию
(штрафы за гэпы, ожидаемый порог по E-value, матрица и др.).
Здесь можно ознакомиться с параметрами поиска.
В результате такого запроса было получено 936 находок (Sbjct): 730 белки из организма бактерий, 55 - из организма архей, 151 принадлежат эукариотам. Для того, чтобы определить, какое число находок какой группе организмов принадлежит,
я перешла по ссылке Formatting options, там в поле Organisms выбирала нужную группу, затем нажимала кнопку Reformat.
В Таблице 1 для лучшей, худшей находок и находки из середины списка были сравнены важнейшие показатели выравнивания:
- длину выравнивания
- bit score - характеристика, показывающая, насколько выравнивание "хорошее" (т. е. насколько сильно совпадает с Query), и нормированная на особенности матрицы.
Чем выше bit score, тем лучше выравнивание.
- процент идентичных остатков
- процент сходных остатков
- E-value - число находок с таким же или лучшим Score в случайном банке (чем оно меньше, тем лучше выравнивание)
В качестве лучшей находки была выбрана вторая с начала списка (так как первая непосредственно является последовательностью искомого белка): Aspartate aminotransferase [Bacillus sp. YM-2],
в качестве худшей - последняя: Deoxyribose-phosphate aldolase [Corynebacterium glutamicum ATCC 13032], из середины списка: Histidinol-phosphate aminotransferase [Campylobacter curvus 525.92].
Таблица 1. Сравнение находок программы BLAST - последовательностей, похожих на последовательность белка NP_214350, по их характеристикам.
Находка |
Название белка |
Организм |
Длина выравнивания |
Bit score |
Процент идентичных колонок, %
| Процент сходных колонок, % |
E_value |
Лучшая |
Aspartate aminotransferase |
Bacillus sp. YM-2 |
392
| 412 |
52 |
69 |
3e-140 |
Из середины списка |
Histidinol-phosphate aminotransferase |
Campylobacter curvus 525.92 |
294
| 52.8 |
24 |
42 |
2е-06 |
Худшая |
Deoxyribose-phosphate aldolase |
Corynebacterium glutamicum ATCC 13032 |
73
| 30.4 |
32 |
50 |
9.7 |
Ниже приведены сами выравнивания выбранных последовательностей с исходной (Рис.1-3).
Рис. 1. Выравнивание последовательности белка Aspartate aminotransferase из организма Bacillus sp. YM-2 с исходной.
Рис. 2. Выравнивание последовательности белка Histidinol-phosphate aminotransferase из организма Campylobacter curvus 525.92 с исходной.
Рис. 3. Выравнивание последовательности белка Deoxyribose-phosphate aldolase из организма Corynebacterium glutamicum ATCC 13032 с исходной.
Из всех полученных находок гомологами исходной последовательности можно считать 394. По условному критерию последовательность можно считать гомологичной, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover).
Для того, чтобы найти находки-гомологи, я задала максимальный E-value 0.001 в Formatting options, отсортировала находки по убыванию Query cover и вручную отобрала нужные.
На Рис. 4 изображено графическое представление находок-гомологов (несмотря на то, что бы выбран режим графического отображения 1000 последовательностей, и последовательности были отсортированы
по Query cover, графическое отображение максимально дает находки до 89% Query cover).
Рис. 4. Графическое представление находок-гомологов.
Однако вышеупомянутый критерий не всегда является истинным. Может быть так, что происходят довольно обширные индели при дивергенции организмов, поэтому значение Query cover
будет ниже 70%, но гомологичность нельзя будет отрицать (особенно если организмы принадлежат к родственным группам).
Поэтому с высокой вероятностью можно говорить о гомологичности последовательностей, если это один и тот же белок у родственных организмов, практически не взирая на значение Query cover.
К сожалению, такой ситуации у меня не наблюдается, но очень интересное дело обстоит с белком Histidinol-phosphate aminotransferase из различных организмов. По условному критерию большая
часть последовательностей этого белка считаются гомологами, а меньшая - нет. Но, вероятно, всю эту группу нужно рассматривать в целом и либо целиком не считать гомологами, либо целиком считать гомологами.
Если причислить эти последовательности к числу гомологов, то придется считать "верными" Query cover 40% и E-value 0.33 (еще вариант - считать гомологами последовательности этого белка из организмов только бактерий).
Задание 2.
В этом задании я искала схожие с исходной последовательности в организме человека. Для этого я вернулась на страницу с параметрами запроса и в поле Organisms указала Human (Условия поиска).
Там среди находок я выбрала последовательность Tyrosine aminotransferase, которая была также найдена в первоначальном запуске
(для первоначального результата с помощью окна Formatting options я отобрала находки, относящиеся к человеку (Organism: Human), там нашла Tyrosine aminotransferase).
О том, что это та же самая находка, свитедельствуют одинаковые название, Sequence ID: sp|P17735.1|ATTY_HUMAN и длина найденной последовательности (Length: 454).
У этих находок полностью совпадают выравнивание и Score, отличается только E-value: для последовательности из первоначального запуска 4е-32, для последовательности из второго запуска 2е-33.
Такое изменение объяснимо: E-value показывает, насколько случайна полученная находка, и так как второй банк был меньше, то данная находка менее случайна.
Также я выполнила поиск по нуклеотидной последовательности гена, кодирующего tblastn (Условия поиска).
Было получено 15035 находок. Многим видам соответствовала не одна находка, а несколько (можно пронаблюдать в Taxonomy reports): Listeria monocytogenes - 16 находок, Bacillus anthracis (anthrax bacterium) - 22 находки,
Bacillus subtilis - 9 находок, а также 127 находок соответствуют синтетически созданному гену, кодирующему данный белок. Помимо этого к одному виду могут относиться находки разных штаммов, а также последовательности отдельных участков генома.
Задание 3.
Для последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 (идентификатор в UniProtKB - Q9HUI9) было выполнено выравнивание (Условия поиска)
и получена локальная карта сходства (Рис. 5):
Рис. 5. Локальная карта сходства последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.
На Рис. 5 видны некоторые особенности полученного выравнивания (Рис. 6):
- Последовательности совпадают почти на всем протяжении от 30 остатка до конца последовательностей (Query cover 92%).
- Первая половина выравнивания "идеальна" (линия на рисунке сплошная) - содержит много консервативных и сходных позиций и не содержит гэпов.
- Во второй половине выравнивания присутствуют 4 маленьких гэпа и 2 более протяженных, соответствующие инделям (пробелы на графике).
- Нетипичный результат - выравниванию соответствуют не одна, а две находки (Рис. 7). Вторая находка (короткий отрезок под основным графиком) соответствует совпадению между началом последовательности
Arginine-pyruvate transaminase AruH и участком из первой трети Query. Однако E-value этой находки 1.6, что свидетельствует о случайности полученного совпадения.
Рис. 6. Выравнивание последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.
Рис. 7. Выравнивание второго участка последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.
Задание 4.
ДЛя выполнения данного задания я создала свою базу данных, полученную из выравнивания последовательностей из файла align_07.fasta,
предварительно удалив все гэпы (файл msa.fasta). Для этого на сервере kodomo я запустила команду makeblastdb с параметром -dbtype prot - так был получен банк, содержащий 9 последовательностей.
Затем я совершила поиск последовательностей, схожих с моим белком (файл my.fasta) в полученной базе данных (команда blastp).
Всего программа признала значимыми 4 находки: участки последовательностей MOOTA (2 находки), THETN, EUBR3, DESOD.
Для лучшей находки (MOOTA 1 и 2) в Таблице 2 перечислены основные характеристики: длина выравнивания, % идентичных и сходных остатков, bit score и E-value, само выравнивание представлено на Рис. 8.
Таблица 2. Данные о лучшем результате работы программы BLAST по поиску последовательностей, похожих на последовательность белка NP_214350, в банке из файла msa.fasta - находке MOOTA.
Находка |
Длина выравнивания |
Bit score |
Процент идентичных колонок, %
| Процент сходных колонок, % |
E_value |
MOOTA (1 находка) |
106
| 21.6 |
25 |
37 |
0.081 |
MOOTA (2 находка) |
6
| 16.2 |
100 |
100 |
5.9 |
Рис. 8. Выравнивание последовательности белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор RefSeq NP_214350) с последовательностью MOOTA из нового банка.
О параметрах выравнивания по новой базе данных можно сказать то, что матрица и штрафы за гэпы совпадают с предыдущими запусками, но появляется такой параметр, как Neighboring words threshold со значением 11,
а также есть параметр, относящийся к окну выдачи результатов (Window for multiple hits: 40).
Проанализировав в целом числовые данные и выраванивания, можно заключить, что длина выравниваний меньше, чем в предыдущих запусках программы (для большинства - значительно меньше),
Bit score довольно небольшой, процент идентичных и сходных колонок примерно такой же (если длина выравнивания больше 20 остатков) или намного больше, чем в предыдущих выравниваниях, так
как полученные выравнивания слишком маленькие. Что касается E-value, то его значение слишком большое для нового банка (при предыдущих запусках при уменьшении банка уменьшался и E-value),
даже самое маленькое значение из имеющихся больше 0.001. Так как E-value большой, а Score маленький, то можно судить об отсутствии гомологии, так как полученные совпадения с высокой вероятностью случайны.
|