Учебный сайт Орлова Артёма

Практикум 12. BLAST.

Задание 1.

Описание параметров blastp.

Database. Параметр устанавливает базу данных для поиска последовательностей. Например, swissprot или pdb. По умолчанию поиск происходит по всем базам данных с исключением дублирующих последовательностей.

Organism. Параметр ограничивает поиск до таксономической группы или нескольких групп. Возможно использование tax id. Например, Zymomonas mobilis (taxid:542). По умолчанию поиск не ограничен таксономией.

Exclude. Можно исключить что-нибудь из результата поиска.

Algorithm. Параметр позволяет изменить алгоритм BLAST по умолчанию (blastp) на другой. Например, Quick BLASTP или PHI-BLAST.

Max target sequences. Параметр настраивает число отображаемых последовательностей в результате BLAST. По умолчанию 100.

Short queries. Производит автоматическую настройку параметров для улучшения результатов для коротких запросов. По умолчанию включён.

Expect threshold. Параметр ограничивает максимальное значение E-value. По умолчанию 10.

Word size. Параметр устанавливает размер индекса для инициирования выравнивания. По умолчанию 6.

Matrix. Выбор матрицы для подсчёта веса выравнивания. По умолчанию BLOSUM62.

Gap Costs. Устанавливает афинный штраф за гэпы. По умолчанию штрафы 11 и 1 (за первый и последующие гэпы).

Compositional adjustments. Корректировка BLAST с учётом наличия участков малой сложности.

Filter. Параметр позволяет скрыть участки малой сложности, искажающие результат. По умолчанию отключен.

Mask. Позволяет скрыть прочие данные в запросе.

Запуск BLAST.

Поиск гомологичных белков глюкозо-фруктозооксидоредуктазы Zymomonas mobilis subsp. mobilis ZM4 = ATCC 31821 (AC: Q07982) был проведён с изменением базы данных на swissprot и максимального числа отображаемых белков на 20000.

XLSX-таблица находок.

Для поиска гомологичных белков было взято 8 последовательностей, затем программой muscle было построено их выравнивание (выравнивание в fasta-формате).

align_before

Фрагмент выравнивания до удаления предположительно негомологичных последовательностей.

Было выбрано 3 последовательности, отвечающие предложенным критериям гомологии: участок с большой плотностью консервативных позиций, длиной более 6 позиций, начинающийся и заканчивающийся абсолютно консервативными позициями (их выравнивание в fasta-формате).

align_after

Фрагмент выравнивания после удаления предположительно негомологичных последовательностей.

Можно заключить, что оставшиеся последовательности гомологичны.

Задание 2. Построение карты локального сходства.

Для построения карты локального сходства были выбраны белки с идентификаторами A0A067N9N0_PLEOS и FOL1_DICDI.

dot_matrix

Карта локального сходства A0A067N9N0_PLEOS (ось абсцисс) и FOL1_DICDI (ось ординат).

Из-за высокого значения E-value (0.64) нецелесообразно рассматривать участок, расположенный на карте сверху. По карте можно сказать, что начальный участок FOL1_DICDI сходен с начальным участком и участком 132-247 A0A067N9N0_PLEOS (можно предполагать дупликацию на втором участке). "Прерываемость" линий обусловлена наличием инделей в локальном выравнивании последовательностей.

Задание 3. Игры с BLAST.

Для поиска по небелковой последовательности был сделан запрос: rain rain go away come again another day (с удалением не обозначающих остатки букв: rainraingawaycmeagainantherday). Минимальное E-value находок оказалось равным 3.7 с весом выравнивания 36.3 и покрытием 60% (txt-файл с результатами).

При поиске по коду доступа Q07982 по Swissprot при различных матрицах BLOSUM менялось количество выдаваемых последовательностей. Для BLOSUM45: 151 (45txt), BLOSUM50: 157 (50txt), BLOSUM62: 78 (62txt), BLOSUM80: 84 (80txt), BLOSUM90: 121 (90txt). Несмотря на изменения в весах выравниваний и E-value выдача последовательностей менялась не сильно.