HELP aaaaaa

Практикум 12. BLAST

В данном практикуме как обычно использовался белок 5'-нуклеотидаза SurE из протеома Xylella fastidiosa (штамм 9a5c).

Нахождение гомологов белка

Параметры поиска BLAST

Параметр Значение Смысл параметра
Введение последовательности запроса: Enter Query Sequence
Enter accession number(s), gi(s), or FASTA sequence(s) Аминокислотная последовательность белка Q9PF20 в Fasta-формате В этом поле вводится (или загружается файл) последовательности в формате Fasta или AC/ID белка.
Query subrange В данном поле указывается с какой по какую аминокислоту последовательности будет происходить поиск (From/To)
Job Title sp|Q9PF20|SURE_XYLFA 5'-nucleotidase SurE... Рабочее название поиска
Align two or more sequences Данная опция позволяет произвести поиск по двум или более последовательностям
Настройки поиска: Choose Search Set
Database Swissprot Название базы данных
Organism В этом поле можно ввести распространенное или биномиальное название или tax ID организма, по которому будет производиться поиск. Если начать вводить, то будет предложено 20 первых названий.
Exclude Позволяет исключать при поиске следующие последовательности:
  • Models (XM/XP) - модельные последовательности
  • Non-redundant RefSeq proteins (WP) - референсные последовательности
  • Uncultured/environmental sample sequences - последовательности из некультивируемых/диких организмов.
Данная опция может помочь улучшить поиск.
Выбор программы: Program Selection
Algorithm blastp (protein-protein BLAST) Выбор алгоритма BLAST:
  • blastp (protein-protein BLAST);
  • Algorithm PSI-BLAST (Position-Specific Iterated BLAST);
  • Algorithm PHI-BLAST (Pattern Hit Initiated BLAST);
  • Algorithm DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST).
Общие параметры алгорита: General Parameters
Max target sequences 20000 Выбор максимального количества выравниваний при поиске.
Short queries Automatically adjust parameters for short input sequences Автоматическая настройка параметров для коротких входных последовательностей
Expect threshold 1 Порог на E-value - ожидаемое количество случайных находок с таким же и лучшим весом.
Word size 6 Длина слова для "затравки"
Max matches in a query range 0 Ограничивает количество совпадений диапазоном запроса. Эта опция полезна, если много сильных совпадений с одной частью запроса могут помешать BLAST представить более слабые совпадения с другой частью запроса.
Подсчитывающие параметры алгоритма: Scoring Parameters
Matrix BLOSUM62 Выбор матрицы выравнивания. Назначает оценку для выравнивания пар остатков и определяет общую оценку выравнивания.
Gap Costs Existence: 11; Extension: 1 Определение цены за гэпы.
Compositional adjustments Conditional composititional score matrix adjustment Матричный метод корректировки для компенсации аминокислотного состава последовательностей (участки малой сложности)
Фильтры и маски: Filters and Masking
Filter Low complexity regions filter Маскировка областей низкой сложности композиции, которые могут привести к ложным или вводящим в заблуждение результатам.
Mask
  • Mask for lookup table only
Поиск только по таблице поиска, без исключений: поиск по заранее составленной таблице с первичными выравниваниями (wordsize)
  • Mask lower case letters.
Поиск будет производиться по той части последовательности, которая записана маленькими(lower case) символами.

Выдача BLAST

Здесь вы можете посмотреть таблицу с результатами поиска BLAST, созданную автоматически программой в текстовом формате и переделанную мной в красивый excel. На втором листе таблицы показаны белки, выбранные для выравнивания (11 последовательностей).
В Jalview было создано выравнивание с помощью программы Probcons with default. Выравнивание было покрашено BLASUM62 c threshold above identity > 90%. Два белка (A2BLQ8.1, Q8ZSY4.1) с наименьшим e-value были удалены, поскольку были менее гомологичны остальным.
aligment with no homo
Изображение выравнивания, до удаления негомологичных белков.
После того, как две последовательности были удалены, оставшиеся были заново выровнены и окрашены, и был определен консервативный участок. С 76 позиции выравнивания и до 135-й располагается участок, который начинается с абсолютно консервативных позиций, и далее подряд идет несколько консервативных колонок. Можете посмотреть проект Jalview.
aligment with homo
Консервативный участок повторно выровненного выравнивания после удаления негомологов.
Кстати, по-моему это интересно, что последние три последоватлеьности (A8ANV8.1 e-value=1.49e-88, B7N6X4.1 e-value=3.80e-86, C5BGI8.1 e-value=1.38e-80) можно выделить в отдельную группку, т.к. большиство позиций, которыми они отличаются от других гомологичных им последовательностей, внутри этой группки обычно совпадают (например, позиции 39, 57-58, 70, 83, 90 103 и тд.).

Построение карты сходства двух белков

Для этого задания я выбрала два белка с AC UniProt G4TAW2_SERID и K1VG04_TRIAC (из разных представителей Agaricomycotina ). Они оба являются Uncharacterized protein и Unreviewed (нет в SwissProt ((((0( )
На сайте UniProt для G4TAW2_SERID были указаны 2 домена FolB, а для K1VG04_TRIAC домен Pterin-binding (птерин-связывающий). C помощью опции поиска по двум последовательностям в BLAST была создана карта локального сходства. Вид карты зависел от размера затравки (word size), причем при для затравки длинной 6 а.о., карта вообще не строилась. Карта локального сходства для затравки = 3, представлена на следующем рисунке.
Карта локального сходства
Карта локального сходства белков G4TAW2_SERID и K1VG04_TRIAC.
Эта карта показывает области сходства, основанные на результатах BLAST. Последовательность G4TAW2_SERID (Query Sequence) представлена ​​на оси X, а числа представляют номера а.о. Последовательность K1VG04_TRIAC (Subject Sequence) представлен на оси Y, и снова цифры представляют номера остатков.
Если описывать белки по данной карте локального сходства, то можно сказать, что белки, в целом, гомологичны. В месте, обозначенном на рисунке (1), произошла делеция в первой последовательности (G4TAW2_SERID), в (2) также произошла делеция G4TAW2_SERID, но уже большего участка, в (3-6) происходили делеция второй последовательности - K1VG04_TRIAC.

Игры с BLAST

Для этого задания я выбрала фразу-последовательность, которая точно не кодирует белок: "Nothing you can say can stop me going home"

Поиск 1

При поиске со следующими параметрами, нашлось две последовательности.
игра с параметрами blast
Рис.1 Две найденные последовательности
игра с параметрами blast
Рис.2 Выравнивание с одной из найденных последовательностей: Zinc metalloproteinase-disintegrin-like NaMP (Snake venom metalloproteinase)

Поиск 2

При поиске со следующими параметрами, нашлось уже 5260 последовательности.
игра с параметрами blast
Рис.3 Первые 107 последовательностей из 5360
игра с параметрами blast
Рис.4 Выравнивание с одной из найденных последовательностей: Chain A, ABC-type branched-chain amino acid transport systems periplasmic component-like protein [Thermomonospora curvata DSM 43183]
При замене параметра word size на 6, BLAST уже не нашел ни одного выравнивания.

Вывод

Как можно было понять из игры с BLAST, параметры, используемые в первом задании, оптимально отсеивают плохие выравнивания. Опции, которые использовались в 1 и 2 блоке игры с BLAST, конечно, увеличивают число находок, но эти находки не представляют никакой ценности, т.к. даже при изменении одного параметра (word size), они не выявляются как гомологичные выравнивания.