На главную На страницу второго семестра
— — — — — — — —
Описание параметров запуска BLASTP:
- Enter Query Sequence
Этот блок параметров я опишу в общем, так как там и так всё понятно. В этом блоке задаётся последовательность, с которой будет произведено выравнивание и по которой будет идти поиск. Там есть возможность ввести её напрямую, в виде файла, а также указать определённый её участок, с которым надо работать. Также можно сделать выравнивание двух введённых последовательностей - Database
Здесь можно выбрать базу данных с последовательностями белков, по которой будет производиться поиск - Organism
Здесь можно выбрать организм или организмы, по котором будет произовдиться поиск. Если надо, можно наоборот исключить из поиска определённые организмы - Exclude
Позволяет исключить определённые белки из поиска - Algorithm
Позволяет выбрать алгоритм, по которому будет производиться поиск белков - Max target sequences
Здесь можно задать, сколько максимально результатов поиска выдаст программа - Short queries
Включение этого параметра позволит программе изменять остальные параметры (например, изменение длины слова, с которого начинается выравнивание) для улучшения поиска в случае коротких последовательностей - Expect threshold
Этот параметр задаёт порог на значение E-value. Будут отображены только результаты с E-value ниже данного порога - Word size
Здесь задаётся размер слова, при совпадении которого программа начнёт выравнивание с последовательностью. Это сделано для ускорения поиска, чтобы BLAST не сравнивал введённую последовательность со всеми, которые у него есть - Max matches in a query range
Здесь можно задать ограничение по максимальному числу совпадений между введённой последовательностью и последовательностями в базе данных. Это нужно, если нужно посмотреть более слабые совпадения с одной частью белка, а BLAST их не выдаёт без этого параметра, так как есть очень много более сильных совпадений с другой его частью. 0 – ограничения нет, видимо, однако об этом нигде напрямую не написано - Matrix
Позволяет выбрать матрицу очков выравнивания - Gap Costs
Задаёт размер штрафов за гэпы - Compositional adjustments
Этот параметр позволяет ввести довольно сложные системы очков и штрафов, что позволяет избежать ложных предаказаний, связанных с участками малой сложности - Filters and Masking
Позволяет задать дополнительные фильтры, например, на участки малой сложности
Поиск гомологов белка METE_STRMU в базе данных Swissprot
При поиске были изменены параметры Database, где была выбрана база Swissprot, в Max target sequences был выставлено значение в 20 000, Expect threshold – 1, а Word size – 3, остальные параметры были оставлены по умолчанию. Результат поиска в таблице.
Далее было выбрано 5 белков из этой таблицы для поиска гомологов. Первая последовательность – сам белок, далее – тот же белок, но у другого органзима, потом – две последовательности других белков, и в конце – последовательность с очень высоким значением E-value, которая предположительно негомологична и была добавлена для сравнения.
Далее была исключена пятая последовательность и проверена гомологичность оставшихся.
Как видно из картинок, на оставшихся четырёх последовательностях есть участок, доказывающий их консервативность.
Скачать проект JalviewКарта сходства двух белков
По горизонтали белок – F4Q4S4_CAVFA, по вертикали – F0SWA1_SYNGF.
Как видно из карты сходства, по сравнению с горизонтальной последовательностью, у вертикальной произошла перестановка начала и конца, а между этими – крупная делеция. Небольшая часть последовательности в середине горизонтальной также была схожа с некоторой частью в её начале.
Игры с BLAST
В качестве последовательности была взята: "Now if we make a stand We'll find our promised land". Если задать все параметры стандартными (кроме базы данных, которая по задания должна быть Swissprot, и Short queries, где по заданию галочки быть не должно), то никаких находок BLAST сделать не может. Тогда были изменены параметры Max target sequences на 20 000, Expect threshold на 100, а Word size на 2. Тогда BLAST смог найти много результатов, и интересно, что самый первый имел E-value = 2,6 (для просто фразы из песни это очень низкий показатель), а покртытие в 72%.
Далее были произведены несколько поисков с использованием нормальной последовательности белка METE_STRMU. Сначала все параметры были выставлена по умолчанию (кроме тех, которые по заданию жёстко заданы, а также Max target sequences, который стоял на 20 000, так как его менять бессмыслено, зависимость и так ясна). BLAST выдал 251 результат, подавляющее большинство которых имело E-value = 0 (видимо, настолько малое, что программа выдаёт просто 0), а у оставшихся немногих это значение не превышало 10-11. При изменении параметра Expect threshold понятно, что просто будут отсеяны результаты, превышающие его. То есть если изменять его в верхнюю сторону, то будут просто найдены ещё дополнительные менее статистически значимые результаты, а в нижнюю – будут просто отсеяны несколько результатов с конца. При уменьшении длины слова до 3 количество результатов выросло до 263, а максимальное значение E-value – до 7,2. Это в принципе ожидаемо, так как BLAST начинает просто более подробно искать последовательности. С длинной слова в 2 было найдено 265 результатов, а максимальное значение E-value не изменилось. Далее все изменённые параметры оставим в изменённом виде.
Если изменить штрафы за гэпы на 6/2 вместо 11/1 (то есть как бы уменьшить афинность), то количество результатов растёт (274), как и максимальное значение E-value (9,4). Если наоборот поставить 13/1 (то есть как бы увеличить афинность), то количество результатов сократится до 261, но максимальное значение E-value также увеличится до 9 (по сравнению с штрафами 11/1), то есть нельзя сказать, что здесь есть какая-то простая зависимость. Если вернуться к стандартным штрафам (будут использоваться свои стандартные штрафы для каждой матрицы) и поменять матрицу очков на BLOSUM90 вместо BLOSUM62, то количество результатов сократится до 263, но значение E-value вырастет до 7,8. В случае выбора матрицы BLOSUM45 количество результатов остаётся тем же, а максимальное значение E-value вырастает до 9,4. То есть установить для данного параметра какую-то зависимость не удаётся.