МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

В данном практикуме мы научились работать с BLAST (Basic Local Alignment Search Tool) — совокупность программ для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура. С помощью BLAST можно сравнить имеющуюся последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов.

Задание №1
Поиск гомологов белка catalase-peroxidase 2 (AAV46121) из генома бактерии Haloarcula marismortui ATCC 43049.

В данном задании надо было написать описание параметров, использующихся при запуске сервиса BLAST, сохранить полную таблицу найденных белков, построить множественное выравнивание 5 — 10 последовательностей из начала, середины и конца списка Description (результатов поиска BLAST), отредактировать выравнивание, оставив в нем только гомологичные белки, обосновать гомологичность.

Описание парамтров BLAST

1. Enter accession number(s), gi(s), or FASTA sequence(s) - в данное текстовое окно можно ввести непосредственно последовательность в fasta-формате, AC, ID или GI исследуемого белка. Можно исследовать сразу несколько белков.
2. Or, upload file - здесь можно загрузить файл с последовательностью.
3. Query subrange (From To) - здесь можно осуществить поиск по фрагменту последовательности, заданному координатами.
4. Align two or more sequences - здесь можно осуществить выравнивание нескольких последовательностей.
5. Database - здесь можно выбрать базу данных, по которой будет проводиться поиск (например, Refseq, SwissProt, PDB)
6. Organism - здесь можно наложить ограничения на поиск, выбрав организм(ы), которому будут или не будут (exclude) принадлежать белки.
7. Exclude: Models (XM/XP) / Non-redundant RefSeq proteins (WP) / Uncultured/environmental sample sequences - здесь можно исключить модели, основанные на анализе геномной ДНК / неизбыточные последовательности RefSeq / образцы, выделенные из окружающей среды и не имеющие четкой таксономической принадлежности
8. Algorithm - здесь можно выбрать алгоритм работы
9. Max target sequences - здесь можно ограничить сверху количество найденных последовательностей, которое будет выведено.
10. Short queries - здесь можно установить параметры для обработки коротких последовательностей.
11. Expect threshold - здесь можно задать верхний порог E-value: чем он меньше, тем более статистически значимо выравнивание). E-value - это математическое ожидание числа находок BLAST с данным или большим весом в случайном банке того же размера и состава АК.
12. Word size - здесь можно установить длину индесированных слов - участков определенной длины, на которые делятся последовательности, а также длина добавленных слов, вес выравнивания которых с оригинальными больше или равен данного.
13. Max matches in a query range - здесь можно ограничить число выравниваний с одним участком белка (можно показать не только сильные совпадения с одной частью белка, но и более слабые сходства по другим участкам).
14. Matrix - здесь можно выбрать матрицу сходства, которую будет использовать BLAST для вычисления веса выраванивания.
15. Gap Costs - здесь можно установить штраф за открытие инделя, за каждый следующий символ гэпа
16. Compositional adjustments - здесь можно ограничить число участков малой сложности, сходство которых будет высоко, но не будет интересно с биологической точки зрения, поскольку будет демонстрировать наличие, например, очень часто встречающихся в белках последовательностей.
17. Filter Low complexity regions - здесь можно замаскировать участки малой сложности.
18. Mask Mask for lookup table only - здесь также можно замаскировать участки малой сложности, но только на первом этапе работы BLAST (при составлении таблицы).
19. Mask Mask lower case letters - здесь можно замаскировать строчные буквы во введенной последовательности.

Поиск гомологичных белков

Для сравнения из таблицы были выбраны следующие белки:
B0R9V8.1 Peroxidase/catalase [Halobacterium salinarum R1]
A1S3J7.1 Peroxidase/catalase 2 [Shewanella amazonensis SB2B]
B0SD19.1 Peroxidase/catalase [Leptospira biflexa serovar Patoc strain 'Patoc 1 (Ames)']
A4QUT2.1 Peroxidase/catalase 2 [Pyricularia oryzae 70-15]
A1AIC1.1 Peroxidase/catalase [Escherichia coli APEC O1]
A9N0F0.1 Peroxidase/catalase [Salmonella enterica subsp. enterica serovar Paratyphi B str. SPB7]
Q6URB0.1 Cytochrome c peroxidase, mitochondrial [Cryptococcus neoformans var. grubii H99]
Q6CAB5.1 Putative cytochrome c peroxidase, mitochondrial [Yarrowia lipolytica CLIB122]
Q01MI9.1 Probable L-ascorbate peroxidase 3 [Oryza sativa Indica Group]
Далее было построено их выравнивание с помощью muscle в Jalview и раскрашены в ClustalX.
Ниже можно видеть два варианта расскраски с порогом идентичности 0% и 100% сответственно:





Видно, что белки имеют не имеют длинных консервативных участков, однако можно разбить их на группы, наиболее сходные между собой.

Группа 1: наиболее схожие белки.



Группа 2: белки средней степени схожести.



Группа 3: наименее схожие белки.



Также ниже можно увидеть распределение 14 лучших результатов запроса BLAST. Сверху, в секции Query seq. изображена линейная последовательность белка–запроса, на ней изображены очень специфические части последовательности, которые BLAST смог найти. Эти подпоследовательности относятся к доменам, которые изображены ниже у секции Superfamilies. Ниже изображены собственно результаты поиска. Здесь графически представлено покрытие каждого результата (по длине и расположению относительно последовательности запроса). Различия в цветах соответствуют весам соответствующих выравниваний.

Выводы:

Гомологичными я могу назвать белки, которые были помещены в 1-2 группы. Белки группы 3 не содержат длинных консервативных участков, поэтому не могут быть расценены как гомологичные. Белки из 1-2 групп можно расценивать, как гомологичные поскольку в них можно видеть множество консервативных колонок расположеных подряд. Например, в группе 1 есть полностью консервативные позиции 92-103, 105-114, 270-280 (наиболее длинные) и др., а в группе 2 - 171-182 (не полностью), 280-290 и др. В группе 3 наиболее длинные полностью консервативные позиции ограничиваются длиной всего в 3 столбика, поэтому эти белки нельзя считать гомологичными.

Задание №2
Объяснение карты локального сходства двух белков

В этом задании надо было выбрать из списка два белка из разных групп, построить карту локального сходства их последовательностей и объяснить крупные различия между ними. Для выполнения задания были выбраны белки с идентификаторами E4ZIZ7_LEPMJ и K1VG04_TRIAC (из розовой и зеленой групп соответственно). Последовательности этих белков в fasta-формате были введены в текстовое поле Enter FASTA sequence(s) в BLAST и выравнены. В результатае была получена карта локального сходства последовательностей (Dot Matrix):



Карта локального сходства белков показывает выравнивания белков K1VG04_TRIAС (Query_25607) и E4ZIZ7_LEPMJ (Query_25605). Два отдельных отрезка показывают локальные выравнивания, в то время как прерывистая прямая - глобальное выравнивание. Можно заметить, что поскольку прямая не доходит до верхнего правого угла, выравнивается не вся последовательность белка K1VG04_TRIAС, но обе последовательности выровнялись с начала. Наличие множества выравнивающихся участков, скорее всего свидетельствует о том, что последовательности имеют внутри себя схожие блоки. Наличие 6 горизонтальных разрывов и 3 вертикальных свидетельствует о наличии гэпов в этих местах выравнивания последовательностей.

Задание №3
Игры с BLAST

Последовательность, не кодирующая белок

Для игры с параметрами BLAST была взята последовательность, полученная из детского стихотворения взятием первых строк:
Hush, little baby, hush, little baby, don't say a word.
Затем был произведен поиск с изменением входных параметров BLAST. Последовательность была подана на вход программе BLASTp. На выходе был получен единственный результат: hypothetical protein CERSUDRAFT_113350 [Gelatoporia subvermispora B] (вес — 33.9, процент покрытия — 87%, E-value — 5.4, Identity — 37.14%). Все неизвестные символы BLAST заменял на X.

Изменение входных параметров BLAST

В данном задании была использована последовательность белка AAV46121.1. Поиск был произведен несколько раз, в кажном из которых был изменен один произвольный параметр. В первый раз поиск был произведен со стандартными параметрами, но в UniProtKB и с Expect threshold, который был установлен 10000. В результате было получено 5643 последовательности. Затем параметр Expect threshold был изменен на 1, а wordsize на 3, тогда результатов стало 333. При установке флажка на Low complexity regions количество результатов стало равным 332, а E-values незначительно выросли. При смене матрицы на PAM30 было получено 324 результата. При изменении Word size на 2 число результатов не изменилось. Напоследок Expect threshold был установлен на значении 10, а wordsize - на значении 3, а также Compositional adjustments был установлен на No adjustments, и вследствие этого было получено уже 302 последовательности.

Выводы о влиянии изменяемых параметров:

1. Изменение параметра Expect threshold ограничивает максимальное возможное значение E-value. Чем выше значение данного параметра тем больше будет найдено не слишком значимых статистически последовательностей.
2. Изменение параметра Wordsize влияет на количество находок следующим образом: чем он меньше, тем больше находок, однако чем он больше, тем более эти находки значимы.
3. Изменение параметра Low complexity ни к чему не приводит, если в исходной последовательности отсутствовали участки малой сложности.
4. Смена матрицы весов замен влияет на веса выравниваний находок.