В данном практикуме как обычно использовался белок 5'-нуклеотидаза SurE из протеома Xylella fastidiosa (штамм 9a5c).
Нахождение гомологов белка
Параметры поиска BLAST
Параметр
Значение
Смысл параметра
Введение последовательности запроса: Enter Query Sequence
Enter accession number(s), gi(s), or FASTA sequence(s)
Аминокислотная последовательность белка Q9PF20 в Fasta-формате
В этом поле вводится (или загружается файл) последовательности в формате Fasta или AC/ID белка.
Query subrange
В данном поле указывается с какой по какую аминокислоту последовательности будет происходить поиск (From/To)
Job Title
sp|Q9PF20|SURE_XYLFA 5'-nucleotidase SurE...
Рабочее название поиска
Align two or more sequences
Данная опция позволяет произвести поиск по двум или более последовательностям
Настройки поиска: Choose Search Set
Database
Swissprot
Название базы данных
Organism
В этом поле можно ввести распространенное или биномиальное название
или tax ID организма, по которому будет производиться поиск. Если начать вводить, то будет предложено 20 первых названий.
Exclude
Позволяет исключать при поиске следующие последовательности:
Algorithm PHI-BLAST (Pattern Hit Initiated BLAST);
Algorithm DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST).
Общие параметры алгорита: General Parameters
Max target sequences
20000
Выбор максимального количества выравниваний при поиске.
Short queries
Automatically adjust parameters for short input sequences
Автоматическая настройка параметров для коротких входных последовательностей
Expect threshold
1
Порог на E-value - ожидаемое количество случайных находок с таким же и лучшим весом.
Word size
6
Длина слова для "затравки"
Max matches in a query range
0
Ограничивает количество совпадений диапазоном запроса. Эта опция полезна, если много сильных совпадений
с одной частью запроса могут помешать BLAST представить более слабые совпадения с другой частью запроса.
Матричный метод корректировки для компенсации аминокислотного состава последовательностей (участки малой сложности)
Фильтры и маски: Filters and Masking
Filter
Low complexity regions filter
Маскировка областей низкой сложности композиции, которые могут привести к ложным или вводящим
в заблуждение результатам.
Mask
Mask for lookup table only
Поиск только по таблице поиска, без исключений: поиск по заранее составленной таблице с первичными выравниваниями (wordsize)
Mask lower case letters.
Поиск будет производиться по той части последовательности, которая записана маленькими(lower case) символами.
Выдача BLAST
Здесь вы можете посмотреть таблицу с результатами поиска BLAST, созданную автоматически программой в текстовом формате
и переделанную мной в красивый excel. На втором листе таблицы показаны белки, выбранные для выравнивания (11 последовательностей).
В Jalview было создано выравнивание с помощью программы Probcons with default.
Выравнивание было покрашено BLASUM62 c threshold above identity > 90%. Два белка (A2BLQ8.1, Q8ZSY4.1) с наименьшим e-value были
удалены, поскольку были менее гомологичны остальным.
После того, как две последовательности были удалены, оставшиеся были заново выровнены и окрашены, и был определен консервативный
участок. С 76 позиции выравнивания и до 135-й располагается участок, который начинается с абсолютно консервативных позиций, и далее подряд идет
несколько консервативных колонок. Можете посмотреть проект Jalview.
Кстати, по-моему это интересно,
что последние три последоватлеьности (A8ANV8.1 e-value=1.49e-88, B7N6X4.1 e-value=3.80e-86, C5BGI8.1 e-value=1.38e-80) можно выделить в отдельную группку,
т.к. большиство позиций, которыми они отличаются от других гомологичных им последовательностей, внутри этой группки обычно совпадают (например, позиции 39, 57-58, 70, 83, 90 103 и тд.).
Построение карты сходства двух белков
Для этого задания я выбрала два белка с AC UniProt G4TAW2_SERID и
K1VG04_TRIAC (из разных представителей Agaricomycotina ). Они оба являются Uncharacterized protein и Unreviewed (нет в SwissProt ((((0( )
На сайте UniProt для G4TAW2_SERID были указаны 2 домена FolB, а для K1VG04_TRIAC домен Pterin-binding (птерин-связывающий).
C помощью опции поиска по двум последовательностям в BLAST была создана карта локального сходства. Вид карты зависел от размера затравки (word size), причем
при для затравки длинной 6 а.о., карта вообще не строилась. Карта локального сходства для затравки = 3, представлена на следующем рисунке.
Эта карта показывает области сходства, основанные на результатах BLAST. Последовательность G4TAW2_SERID (Query Sequence) представлена на оси X,
а числа представляют номера а.о. Последовательность K1VG04_TRIAC (Subject Sequence) представлен на оси Y, и снова цифры представляют номера остатков.
Если описывать белки по данной карте локального сходства, то можно сказать, что белки, в целом, гомологичны. В месте, обозначенном на рисунке (1), произошла
делеция в первой последовательности (G4TAW2_SERID), в (2) также произошла делеция G4TAW2_SERID, но уже большего участка, в (3-6) происходили
делеция второй последовательности - K1VG04_TRIAC.
Игры с BLAST
Для этого задания я выбрала фразу-последовательность, которая точно не кодирует белок:
"Nothing you can say can stop me going home"
Поиск 1
При поиске со следующими параметрами, нашлось две последовательности.
Последовательность: "Nothing you can say can stop me going home"
Database: Swissprot
Algorithm: BLASTp
Max target sequences: 20000
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 100000
Word size: 6
Matrix: BLUSUM62
Filter: Low complexity regions
Поиск 2
При поиске со следующими параметрами, нашлось уже 5260 последовательности.
Последовательность: "Nothing you can say can stop me going home"
Database: PDB
Algorithm: BLASTp
Max target sequences: 20000
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 100000
Word size: 3
Matrix: BLUSUM62
Filter: Low complexity regions
При замене параметра word size на 6, BLAST уже не нашел ни одного выравнивания.
Вывод
Как можно было понять из игры с BLAST, параметры, используемые в первом задании, оптимально отсеивают плохие выравнивания. Опции, которые использовались
в 1 и 2 блоке игры с BLAST, конечно, увеличивают число находок, но эти находки не представляют никакой ценности, т.к. даже при изменении одного параметра (word size),
они не выявляются как гомологичные выравнивания.