Знакомство с BLAST
Для последовательности белка D-псикоза-3-эпимеразы из генома бактерии Ruminiclostridium cellulolyticum H10 был произведен поиск гомологичных последовательностей с помощью инструмента BLAST. Создана таблица находок. Из таблицы взяты имена последовательностей из начала, середины и конца. Сделаны 3 множественных выравнивания.
Таблица 1. Описание параметров BLASTНазвание | Значение |
---|---|
Enter accession number(s), gi(s), or FASTA sequence(s) | Это такое окошко, в которое надо ввести п-ть белка или его идентификатор. Кстати, можно просто скачать файл с нужной п-тью с помощью upload file |
Query subrange (From To) | Можно указать координаты для поиска |
Align two or more sequences | Для поиска нескольких п-тей |
Database | База данных, по которой будут проводится поиск, например, SwissProt |
Organism | По какому организму будет проводится поиск. Можно исключить, если поставить флажок 'Exclude'. #ничего не поставим. |
Exclude: Models (XM/XP) / Non-redundant RefSeq proteins (WP) / Uncultured/environmental sample sequences | Исключить:
|
Algorithm | Алгоритм поиска. Введем blastp(protein-protein BLAST) |
Max target sequences | Максимальное число последовательностей для поиска. Введем 20000, чтобы не пропустить ни одног белка |
Short queries | Для маленьких п-тей делает автоматические параметры, поэтому для моего белка пропускаем этот пункт, т.к моя п-ть некороткая |
Expect threshold | Ожидаемое число случайных совпадений в произвольной последовательности. Чем меньше E-value (математическое ожидание числа находок BLAST с данным или большим весом в случайном банке того же размера и состава АК), тем более схоже выравнивание. Поставим E-value 10 |
Word size | Задает длину, на которые делятся п-ти. Введем 6 |
Max matches in a query range | Ограничивает число выравниваний с одним участком белка. Показывает сильные совпадения и слабые. Оставим 0 |
Matrix | Тип матрицы для вычисления веса выравнивания. Введем BLOSUM62 |
Gap Costs | Штраф за гэп. Оставим Existence: 11 (за первый) Extension: 1 (за последующий) |
Compositional adjustments | Для участков малой сложности, так как сходство с этими участками будет высоко, но это не будет "правдой". Введем Conditional compositional score matrix adjustment |
Filter Low complexity regions | Замаскировать участки малой сложности |
Mask for lookup table only | Замаскировать участки малой сложности, но лишь на первом этапе работы BLAST |
Mask Mask lower case letters | Замаскировать строчные буквы во введенной последовательности |
Когда я запустила BLAST с моей бактерией, то в результате получила 16 последовательностей. Результаты вы можете скачать здесь . Я сравнивала 3 множественных выравнивания:
предположительно гомологичных белков, у которых маленький E-value и большой процент Query Cover. Так было отобрано 7 белков (если не считать сам белок относительно, которого мы выбираем B8I944.1). Затем были удалены предположительно негомологичные п-ти и получено выравнивание.
То есть гомологична белку из Agrobacterium fabrum str. C58, белку из Clostridium bolteae ATCC BAA-613, белку из Pseudomonas cichorii, белку из Mesorhizobium japonicum MAFF 303099. Конечно, можно было бы еще удалить 2 последних п-ти, но мы уже на данном этапе можем говорить о гомологичности, так как столбецы с 212 по 221 консервативны.
белков, взятых из середины списка, затем были тоже удалены предположительно негомологичные белки и получено выравнивание.
Трудно установить гомологичность этих белков, т.к нет более 6 консервативных столбцов
белков, взятых с конца списка, затем удалили негомологичные и получили выравнивание.
Трудно установить гомологичность
BLAST также выдает распределение запросов. Сверху, в секции Query seq. изображена линейная последовательность белка–запроса. Ниже изображены результаты поиска. Здесь графически представлено покрытие каждого результата. Также здесь представлены величены E-value, оценить которые мы можем с помощью цветов. Красным окрашены последовательности с очень низким E-value.
Карта локального сходства A0A067N9N0_PLEOS (ось абцисс) и FOL1_DICDI (ось ординат).
В BLAST есть опция 'DOT PLOT', которая строит карту гомологичности белков. BLAST построил 3 основных линии выравнивания. "Прерываемость" линий обусловлена наличием инделей в локальном выравнивании. Как мы видим у последовательности A0A067N9N0_PLEOS произошла большая дупликация, а самый верхний "отрезок" последовательности FOL1_DICDI никакой значимой биологической информации не несет из-за высокого значения E-value (0.61).
Игры с BLAST
Для игры с п-тью, некодирующей белок был использован фрагмент из стихотворения С. Есенина " Мне осталась одна забава ...", который был переведен на английский язык, были удалены табуляторы и изменен регистр :
ISTAYEDONEGAMEFINGERSINHISMOUTHANDCHEERFULWHISTLINGSWEPTNOTO RIETYTHATMARAKEANDABRAWLERAHWHATRIDICULOUSLOSSMUCHINLIFEISRI DICULOUSLOSSESIAMASHAMEDTHATIINGODBITTERLYMETHATNOTBELIEVENO WGOLDFARAWAYALLBURNSWORLDLYMRETANDISWOREANDBRAWLEDTOBURNBRIG
Здесь мы изменяли Wordsize (чем больше длина слова, тем меньше вероятность найти гомологичную п-ть), Database (разные базы выдают разные данные), Matrix (выдают разные данные, так как задумка создания каждой матрица разная (PAM для близкородственных))).
Результаты описаны в таблице-игра
Для игры с моим белком ACL75304.1 мы баловались с Organism (ищет гомологичные п-ти только среди указанных), E-value (Expect threshold , чем больше E-value, тем ниже вероятность найти действительных гомологов), gap costs (при изменении у меня изменялось число находок, хоть и не всегда, поэтому я подобрала те штрафы, которые бы дали изменение. Но одно остается фактом: при изменении gap изменяется вся информация об выравниваниях(score, % и т.д)).
Результаты описаны в таблице