Программа BLAST

Петренко Павел

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова

Поиск в Swiss-Prot гомологов белка

Мой белок из практикума 7 (Universal stress protein) оказался недостаточно аннотированным для использования, поэтому я выбрал новый белок для данного практикума. Мой выбор пал на Пенициллин-связывабщий белок 1А (Penicillin-binding protein 1A), так как мне показалась интересна его функция в участии формирования клеточной стенки бактерии.

Параметры, которые были использованы при запуске BLAST:

Database: Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)

Organism: none (иначе находился лишь один белок в Pseudomonas aeruginosa PAO1)

Exclude: none

Algorithm: blastp (protein-protein BLAST)

Max target sequences: 100

Short queries: chosen

Expect threshold: 0.05

Word size: 5

Max matches in a query range: 0

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Filter: not chosen

Mask: not chosen

Всего нашёлся 81 результ. Из них для дальнейшего анализа я выбрал пять Пенициллин-связывающих белков 1А из протеомов следующих организмов: Escherichia coli K-12, Xylella fastidiosa Temecula1, Vibrio cholerae O1 biovar El Tor str. N16961, Haemophilus influenzae Rd KW20 и Neisseria flavescens. Было сделано множественное выравнивание с помощью программы Mussle в Jalview. Исходя из результатов выравнивания, можно сделать вывод, что данные белки гомологичны, так как они имеют высококонсервативные участки: участки 65-122 и 136-240, относящиеся к нечувствительному к пенициллину n-концевому домену трансгликолазы, недоменные участки 283-297, 305-339, а также участки 443-506, 509-519, 531-641, 725-745, 761-762, 767-806, 812-813 и 831-847, относящиеся к чувствительному к пенициллину с-концевому домену транспептидазы. При этом стоить заметить, что участки связывания с мембраной у этих белков различны, что обусловлено особенностями мембран разных бактерий.

Текстовая выдача программы

Проект Jalview

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Polyprotein: RNA2 polyprotein

ID: POL2_APMV

AC: P38485

CHAIN: 75-413

Organism: Andean potato mottle virus (APMV)

Protein: Movement protein

Fasta-файл

Параметры, которые были использованы при запуске BLAST:

Database: Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)

Organism: none (по заданию)

Exclude: none

Algorithm: blastp (protein-protein BLAST)

Max target sequences: 100

Short queries: chosen

Expect threshold: 0.05

Word size: 5

Max matches in a query range: 0

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Filter: not chosen

Mask: not chosen

Всего нашлось 6 результатов, один из которых является исходным фрагментом полипротеина. Далее были отобраны белки следующих организмов: Squash mosaic virus (strain melon), Bean-pod mottle virus (strain Kentucky G7), Red clover mottle virus, Cowpea severe mosaic virus (strain DG) и Cowpea mosaic virus strain SB. При загрузке найденных белковых последовательностей в Jalview, я вырезал те участки, которые указал Blast для сравнения, а затем удалил те буквы, которые были левее первой или правее последней буквы, выровненной с какой-либо буквой исходного зрелого белка (как указано в задании). Исходя из результатов выравнивания можно сделать вывод, что белки гомологичны, так как они имеют консервативные участки 6-12, 97-248 и колонку 79, рядом с которой выравнивание даёт положительное значение.

Текстовая выдача программы

Проект Jalview

Исследование зависимости E-value от объёма банка

Было повторно проведён поиск гомологов зрелого вирусного белка Movement protein в BLAST, но теперь в параметре Organism было задано значение Viruses (taxid:10239). Общее число находок не изменилось, но у найденных организмов (остались прежние) изменился параметр E-value. Так, у Red clover mottle virus E-value уменьшился с 3e-46 до 1e-47. Теперь с помощью формулы для вычисления E-value (E=Kmn·e-λS) попробуем оценить долю вирусных белков в Swiss-Prot. Значения K, S, m и -λ не зависят от размера базы данных, следовательно их можно сократить. Получается, что долю вирусных белков n в базе данных Swiss-Prot, необходимо подедить E-value второго поиска на E-value первого поиска. (1e-47/3e-46)·100%≈3,33%. Получается, что доля вирусных белков в Swiss-Prot равна примерно 3,33%.

Текстовая выдача программы