Практикум 12.BLAST

С помощью сайта NCBI были выполнены задания по поиску гомологов белков, для этого я воспользовалась разновидностью программы BLAST BLASTp.

Задание 1.1

Описание параметров BLAST
Enter Query Sequence В окно вводится AC нужной последовательности или собственно сама последовательность, есть возможность указать координаты или добавить 2 и более последоватеельности.
Choose Search Set Здесь происходит выбор банка последовательностей, в которых будет осуществлен дальнейший поиск, к примеру есть банки: swissprot, pdb и др. Также в поле Organism можно выбрать таксон, в котором будет найден гомолог(и).
Max target sequences Параметр, определяющий количество выданных результатов, максимальное возможное число 20000.
Expect threshold Ожидаемое количество случайных находок с таким же и лучшим весом (в той же базу данных, с запросом той же длины и состава, с теми же параметрами на вычисление веса выравнивания). Чем меньше этот параметр, тем выше значимость находки.
Word size Длина слова, на которую разобьет последовательность программа для составления Хеш-таблицы и поиска гомологов.Доступны длины, равные 2, 3, 6.
Max matches in a query range ограничивает число находок BLAST в одной последовательности из банка; 0 - ограничений нет.
Matrix Матрица весов замен.
Gap Costs Штрафы за открытие Инделя, за каждый следующий символ гэпа
Compositional adjustments Борьба с участками малой сложности.

Ниже приведена таблица с найденными гомологичными последовательностями.


Таблица

Задание 1.2

На данном рисунке представлено множественное выравнивание гомологичных последовательностей, которые я выбрала из таблицы BLAST. Это можно обосновать тем, что есть участок из 11 колонок с абсолютно консервативной позицией. Колонки с гэпами отсутствуют. Также есть участки(пример на картинке) с высокой плотностью консервативных позиций.

Здесь прдставлны последовательности:

Oops

Mножественное выравнивание

Задание 2. Карта локального сходства.

Для построения карты локального сходства я выбрала белок A0A061M0C9_9MICO (7,8-dihydroneopterin aldolase) и белок M2R9A4_CERS8(Uncharacterized protein). Можно заметить, что две последовательности несильно схожи, что также подтверждает низкое покрытие.На карте есть 4 гомологичных участка, присутствуют разрывы из-зи инделей.Причем конец первой последовательности выравнен с началом второй и наоборот.


Oops

Задание 3. Игры с BLAST

Чтобы выполнить 3 задание, я взяла случайную последовательность StandartsmallestsellAmstradnats, которая не кодирует белок. После изменения некоторых параметров, я получила следующий результат:

Выдало 23 гомологичные последовательности Wordsize 6: 0 находок
Wordsize 2: 28 находок
По данным результатом можно сделать вывод, что при задании наибольшего размера слова гомологичная последовательность ищется быстрее, но результатов выравнивания с данной последовательностью я не получила. При поиске выравниваний с параметром Wordsize = 2 Blast работает медленне, но выдает больший результат, чем при других параметрах.Это логично, так как шанс найти гомолога таким образом повышается. Organism Metazoa: 18 находок
Organism Eukariota: 19 находок
Таким образом, выбрав таксон побольше, я получила добавление всего одной последовательности. Изменяя данный параметр мы можем ограничивать область поиска гомологов.