Практикум 12. BLAST.
Задание 1.
Описание параметров blastp.
Database. Параметр устанавливает базу данных для поиска последовательностей. Например, swissprot или pdb. По умолчанию поиск происходит по всем базам данных с исключением дублирующих последовательностей.
Organism. Параметр ограничивает поиск до таксономической группы или нескольких групп. Возможно использование tax id. Например, Zymomonas mobilis (taxid:542). По умолчанию поиск не ограничен таксономией.
Exclude. Можно исключить что-нибудь из результата поиска.
Algorithm. Параметр позволяет изменить алгоритм BLAST по умолчанию (blastp) на другой. Например, Quick BLASTP или PHI-BLAST.
Max target sequences. Параметр настраивает число отображаемых последовательностей в результате BLAST. По умолчанию 100.
Short queries. Производит автоматическую настройку параметров для улучшения результатов для коротких запросов. По умолчанию включён.
Expect threshold. Параметр ограничивает максимальное значение E-value. По умолчанию 10.
Word size. Параметр устанавливает размер индекса для инициирования выравнивания. По умолчанию 6.
Matrix. Выбор матрицы для подсчёта веса выравнивания. По умолчанию BLOSUM62.
Gap Costs. Устанавливает афинный штраф за гэпы. По умолчанию штрафы 11 и 1 (за первый и последующие гэпы).
Compositional adjustments. Корректировка BLAST с учётом наличия участков малой сложности.
Filter. Параметр позволяет скрыть участки малой сложности, искажающие результат. По умолчанию отключен.
Mask. Позволяет скрыть прочие данные в запросе.
Запуск BLAST.
Поиск гомологичных белков глюкозо-фруктозооксидоредуктазы Zymomonas mobilis subsp. mobilis ZM4 = ATCC 31821 (AC: Q07982) был проведён с изменением базы данных на swissprot и максимального числа отображаемых белков на 20000.
Для поиска гомологичных белков было взято 8 последовательностей, затем программой muscle было построено их выравнивание (выравнивание в fasta-формате).
Было выбрано 3 последовательности, отвечающие предложенным критериям гомологии: участок с большой плотностью консервативных позиций, длиной более 6 позиций, начинающийся и заканчивающийся абсолютно консервативными позициями (их выравнивание в fasta-формате).
Можно заключить, что оставшиеся последовательности гомологичны.
Задание 2. Построение карты локального сходства.
Для построения карты локального сходства были выбраны белки с идентификаторами A0A067N9N0_PLEOS и FOL1_DICDI.
Из-за высокого значения E-value (0.64) нецелесообразно рассматривать участок, расположенный на карте сверху. По карте можно сказать, что начальный участок FOL1_DICDI сходен с начальным участком и участком 132-247 A0A067N9N0_PLEOS (можно предполагать дупликацию на втором участке). "Прерываемость" линий обусловлена наличием инделей в локальном выравнивании последовательностей.
Задание 3. Игры с BLAST.
Для поиска по небелковой последовательности был сделан запрос: rain rain go away come again another day (с удалением не обозначающих остатки букв: rainraingawaycmeagainantherday). Минимальное E-value находок оказалось равным 3.7 с весом выравнивания 36.3 и покрытием 60% (txt-файл с результатами).
При поиске по коду доступа Q07982 по Swissprot при различных матрицах BLOSUM менялось количество выдаваемых последовательностей. Для BLOSUM45: 151 (45txt), BLOSUM50: 157 (50txt), BLOSUM62: 78 (62txt), BLOSUM80: 84 (80txt), BLOSUM90: 121 (90txt). Несмотря на изменения в весах выравниваний и E-value выдача последовательностей менялась не сильно.