Практикум 10. Программа Blast
Я работал с белком KPC-2, которому посвящен практикум 7. KPC-2 — это бета-лактамаза(а точнее, карбапенемаза) класса А, обеспечивающая устойчивость к бета-лактамным антибиотикам, включая пенициллины, цефалоспорины и карбапенемы.
1. Гомологи белка KPC-2 в SwissProt
Для запуска программы BLAST использовалась следующая конфигурация параметров:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка KPC-2 [1]
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: Low complexity regions: yes
Файл с выдачей
Для дальнейшей работы отобрал следующие 6 белков: P52682, P52663, Q01166, P22390, A5U493, P00809. Осуществил множественное выравнивание с помощью MUSCLE. Все выбранные белки отлично выравниваются, безусловно, они все гомологичны. Загрузил полученное выравнивание в Jalview, окрасил по clustal.
2. Гомологи зрелого вирусного белка, вырезанного из полипротеина
Из результатов запроса (protein_name:Polyprotein) AND (taxonomy_id:10239) выбрал белок Polyprotein P1234 (ID: POLN_AURAV, AC: Q86924) из организма Aura virus (AURAV). Для дальнейшей работы выбрал белок mRNA-capping enzyme nsP1, с координатами 1-539. В UniProt нашел описание данного белка, для того чтобы поменять описание в исходном fasta-файле выполнил команду "descseq -sequence virus_p.fasta -name 'mRNA-capping enzyme nsP1' -description 'Cytoplasmic capping enzyme that catalyzes two virus-specific reactions: methyltransferase and nsP1 guanylyltransferase (By similarity)' -outseq testseq.txt".
Привожу также конфигурацию натроек BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка KPC-2 [1]
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: Low complexity regions: yes
Файл с выдачей
Далее отобрал 6 белков, счастливчиками оказались: P27283, P03317, Q5Y389, Q9JGL0, P08411, P13887. Используя MUSCLE осуществил выравнивание, полученный файл загрузил в Jalview, окрасил по Clustal.
3. Исследование зависимости E-value от объёма банка
Для этого задания использовал BLAST со следующей конфигурацией настроек:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка KPC-2 [1]
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: Low complexity regions: yes
По теореме Карлина E-value вычисляется следующим образом: E-value=Kmn·e-λS, где S — Score (вес), m — длина исходной последовательности, n — размер базы данных (суммарная длина всех последовательностей), K и λ — две константы, зависящие только от параметров вычисления веса. Величины E-value для BLAST при поиске по всей базе данных и при поиске только среди вирусов, будут пропорциональны параметру n: E-value1/E-value2 = n1/n2 (все остальные множители просто сокращаются), таким образом, посчитав отношение двух значений E-value, можно оценить долю вирусных белков в UniProt. Для сравнения значений E-value использовал белок Q8JJX1, при поиске по всей базе данных E-value равен 2e-123, при поиске только по вирусам — 6e-125. Таким образом, доля вирусных белков в UniProt — порядка 3%.
Сравнение интерфейсов BLAST на NCBI и на UniProt
Сравнение стоит начать с общих настроек (ввод последовательности, выбор базы данных и т.д.): ввести последовательность еа сайте NCBI можно, несколькими способами: по идентификаторам (Accesion numbers, gi — числовой идентификатор последовательностей в NCBI старого формата), последовательность в формате fasta, можно также просто вводить последовательность без никаких иных символов, поддерживается также и подгрузка файлов с идентификаторами и последовательностями в формате fasta.
На UniProt ситуация схожая: можно осуществлять поиск по идентификатору UniProt, или можно ввести последовательность в формате fasta, либо подгрузить файл с последовательностью формата fasta. Оба сервиса также поддерживают ввод нескольких последовательностей, а таком режиме BLAST одновременно будет производить несколько независимых поисков (на UniProt), на NCBI в таком режиме BLAST осуществит выравнивание двух и более последовательностей относительно друг друга, построит карту локального сходства, дерево выравнивания (на UniProt для этого имеется вкладка Align). На обоих сервисах можно ввести название для текущего поиска вместо обычного сгенерированного идентификатора (окно Job Title), это полезно при одновременном проведении нескольких поисков, чтобы ориентироваться в них.
Что касается доступных баз данных для поиска, UniProt предоставляет доступ к поиску по семейству баз данных UniProt (UniRef, UniParc и т.д.). На NCBI разнообразие куда больше: UniProt, RefSeq, PDB, NR и другие, то есть NCBI предоставляет значительно больше источников для поиска (хотя в UniProt можно искать по UniParc, который содержит записи из всех баз данных, такой поиск не удобен из-за огромного числа схожих последовательностей).
На UniProt доступны лишь две программы BLAST: BLASTX и BLASTP, на NCBI программ BLAST множество: PHI-BLAST, PSI-BLAST, BLASTP, DELTA-BALST, на отдельных вкладках также доступны BLASTX, TBLASTN (для работы с нуклеиновыми кислотами также есть BLASTN и TBLASTX).
Если открыть расширенные настройки: Advanced parameters на UniProt и Algorithm на NCBI, то можно заметить, что оба сервиса позволяют выставлять следующие параметры: E-threshhold, Matrix (тип матрицы замен, на UniProt: Blosum62, Blosum45, Blosum80, Pam30, Pam70; на NCBI выбор больше, имеются также матрицы Blosum90, Blosum50 и Pam250), Max target sequences/Hits (максимальное число выводимых последовательностей), также на обоих ресурсах можно фильтровать участки малой сложности. Однако на NCBI можно также выставлять длину слова (word size можно задать равным 2,3,5,6, на UniProt фиксированное значение 3), штраф за открытие и расширение гэпа (на UniProt фиксированные значения — 11 за отрытие и 1 за расширение), также имеется настройка Compositional adjustments, которая корректирует статистическую значимость (E-value) в зависимости от аминокислотного состава белков.
Форматы вывода на UniProt - TSV, Excel (XLSX), CSV (для табличного анализа); XML, JSON, RDF (для парсинга программами); Text, GFF (для визуального анализа); Fasta — для работы с последовательностями. Форматы вывода на NCBI: FASTA (complete sequence), FASTA (aligned sequences), GenBank (complete sequence) — для работы с последовательностями; Hit Table (text), Hit Table (CSV), Descriptions Table (CSV) — для табличного анализа; XML, ASN.1 — для парсинга программами; text - для визуального анализа. Оба портала предлагают большое разнообразие форматов вывода для использования с различной целью.
Можно сделать следующий вывод: выбор между инструментами зависит от цели исследования: UniProt BLAST оптимален для быстрой идентификации белков и мгновенного получения биологической аннотации (функции, домены, болезни), тогда как NCBI BLAST необходим для глубокого анализа благодаря специализированным программам (PSI-BLAST, PHI-BLAST, DELTA-BLAST), возможности ручной настройки параметров (word size, gap costs) и доступу к более широкому спектру баз данных, включая геномные и метагеномные последовательности.