Basic Local Alignment Search Tool (BLAST)

1. Поиск гомологов белка

BLAST - один из самых популярных эвристических алгоритмов построения локального выравнивания. Простота использования и гибкость позволили ему стать широко распространенным средством поиска гомологичных последовательностей по базам данных. Цель данного задания - поиск гомологов 2,3-дикето-5-метилтиопентил-1-фосфат енолазы с помощью BLAST. Параметры поиска представлены в таблице 1.

Таблица 1. Параметры поиска и их значения
Параметр поискаЗначениеОписание параметра
Accession number(s), gi(s), or FASTA sequene(s)BAD75238.1код доступа последовательности в базе данных или ввод последовательности в FASTA-формате (также ниже можно загрузить файл с последовательностью)
DatabaseUniProtKB/Swiss-Prot(swissprot)база данных, в которой будет осуществлен поиск
Organism-организмы, по которым будет осуществляться поиск последовательностей
Job titleBAD75238:ribulose bisphosphate carboxylase...заголовок, который появится во всех результатах поиска (используется опционально)
Exclude-Исключение параметров (используется опционально)
Algorithmblastp (protein-protein BLAST)выбор алгоритма BLAST. Blastp - просто сравнение запрашиваемой последовательности с белками из базы данных
Max target sequences100максимальное число последовательностей в выдаче
Short queriesyesавтоматическая настройка параметров для коротких входных последовательностей
Except threshold0.05максимальное значение E-value, при котором осуществляется поиск
Word size6длина сида, которая инициирует выравнивание
Max matches in a query range0максимальное число совпадений в диапазоне запроса
MatrixBLOSUM62выбор матрицы, определяющей вес выравнивания
Gap costsExistence: 11; Extension: 1штрафы за открытие и продление гэпа
Compositional adjustmentsConditional compositional score matrix adjustmentкорректировка матрицы в зависимости от аминокислотного состава последовательности
Low complexity regionsNoмаксирование участков низкой композиционной сложности, которые могут привести к ложным результатам
Mask for lookup table onlyNoиспользование маски только при создании сидов, используемых на этапе сканирования базы данных
Mask for lookup table onlyNoиспользование маски только при создании сидов, используемых на этапе сканирования базы данных
Mask lower case lettersNoмаксирование всех строчных букв FASTA-последовательности

файл текстовой выдачи программы вы можеет посмотреть здесь.

Далее было отобрано 6 потенциальных гомологов для осуществления множественного выравнивания с исходным белком. С результатами можно ознакомиться на рисунке 1 или в этом файле.

Рисунок 1. Результаты множественного выравнивания (кликните на изображение для улучшения качества)

Так как во всех выравненных последовательностях имеется достаточно много консервативных участков, можно сделать вывод, что они действительно являются гомологами.

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Для выполнения второго и третьего пунктов практикума мною была выбрана протеиназа вируса из семейства coronaviridae.

ID: R1A_BCRP3

AC: P0C6T7; Q3I5J6

Название вируса: Bat coronavirus Rp3/2004

Выбранный зрелый белок: 3C-like proteinase

Координаты: 3239..3544

Ссылка на файл вырезанной последовательности

Алгоритм действий аналогичен предыдущему пункту. Cохраненный результат выдачи BLAST можно посмотреть здесь, а файл проекта Jalview - здесь.

3. Исследование зависимости E-value от объёма банка

После установки параметра поиска среди таксона Viruses количество результатов в выдаче не изменилось (58).

Для вычисления доли белков был выбран P0C6T6: Replicase polyprotein 1a. Необходимые значения представлены в таблице 2.

Таблица 2.
ВыдачаScore (S)E-value (Ei)
All3388e-105
Viruses3383e-106

β = 3*10-106/8*10-105=0.0375

Оценка доли вирусных белков в UniProtKB/SwissProt: 3.75%