BLAST - один из самых популярных эвристических алгоритмов построения локального выравнивания. Простота использования и гибкость позволили ему стать широко распространенным средством поиска гомологичных последовательностей по базам данных. Цель данного задания - поиск гомологов 2,3-дикето-5-метилтиопентил-1-фосфат енолазы с помощью BLAST. Параметры поиска представлены в таблице 1.
Параметр поиска | Значение | Описание параметра |
---|---|---|
Accession number(s), gi(s), or FASTA sequene(s) | BAD75238.1 | код доступа последовательности в базе данных или ввод последовательности в FASTA-формате (также ниже можно загрузить файл с последовательностью) |
Database | UniProtKB/Swiss-Prot(swissprot) | база данных, в которой будет осуществлен поиск |
Organism | - | организмы, по которым будет осуществляться поиск последовательностей |
Job title | BAD75238:ribulose bisphosphate carboxylase... | заголовок, который появится во всех результатах поиска (используется опционально) |
Exclude | - | Исключение параметров (используется опционально) |
Algorithm | blastp (protein-protein BLAST) | выбор алгоритма BLAST. Blastp - просто сравнение запрашиваемой последовательности с белками из базы данных |
Max target sequences | 100 | максимальное число последовательностей в выдаче |
Short queries | yes | автоматическая настройка параметров для коротких входных последовательностей |
Except threshold | 0.05 | максимальное значение E-value, при котором осуществляется поиск |
Word size | 6 | длина сида, которая инициирует выравнивание |
Max matches in a query range | 0 | максимальное число совпадений в диапазоне запроса |
Matrix | BLOSUM62 | выбор матрицы, определяющей вес выравнивания |
Gap costs | Existence: 11; Extension: 1 | штрафы за открытие и продление гэпа |
Compositional adjustments | Conditional compositional score matrix adjustment | корректировка матрицы в зависимости от аминокислотного состава последовательности |
Low complexity regions | No | максирование участков низкой композиционной сложности, которые могут привести к ложным результатам |
Mask for lookup table only | No | использование маски только при создании сидов, используемых на этапе сканирования базы данных |
Mask for lookup table only | No | использование маски только при создании сидов, используемых на этапе сканирования базы данных |
Mask lower case letters | No | максирование всех строчных букв FASTA-последовательности |
файл текстовой выдачи программы вы можеет посмотреть здесь.
Далее было отобрано 6 потенциальных гомологов для осуществления множественного выравнивания с исходным белком. С результатами можно ознакомиться на рисунке 1 или в этом файле.
Так как во всех выравненных последовательностях имеется достаточно много консервативных участков, можно сделать вывод, что они действительно являются гомологами.
Для выполнения второго и третьего пунктов практикума мною была выбрана протеиназа вируса из семейства coronaviridae.
ID: R1A_BCRP3
AC: P0C6T7; Q3I5J6
Название вируса: Bat coronavirus Rp3/2004
Выбранный зрелый белок: 3C-like proteinase
Координаты: 3239..3544
Ссылка на файл вырезанной последовательностиАлгоритм действий аналогичен предыдущему пункту. Cохраненный результат выдачи BLAST можно посмотреть здесь, а файл проекта Jalview - здесь.
После установки параметра поиска среди таксона Viruses количество результатов в выдаче не изменилось (58).
Для вычисления доли белков был выбран P0C6T6: Replicase polyprotein 1a. Необходимые значения представлены в таблице 2.
Выдача | Score (S) | E-value (Ei) |
---|---|---|
All | 338 | 8e-105 |
Viruses | 338 | 3e-106 |
β = 3*10-106/8*10-105=0.0375
Оценка доли вирусных белков в UniProtKB/SwissProt: 3.75%