Go back

BLAST


Информация о параметрах BLAST


Поиск гомологии

В данном практикуме предлогалось найти с помощью сервиса BLAST гомологичные данному белку последовательности. В моём случае белок - часть АТФ-азы типа V. В базе данный Swissprot при параметре wordsize = 6 было найдено 1638 предположительно гомологичных последовательностей. Из получившегося списка из конца, начала и середины списка были выбраны 10, их последовательности скачаны и выравнены в программе Jalview. После этого были исключены четыре самые отличающиеся последовательности, оставшиеся шесть снова выравнены и покрашены по % Identity. На получившейся картинке можно хорошо увидеть несколько блоков с высоким процентом консервтивности, длина некоторых из них превышает 6 колонок, что обычно является доказательством гомологии белков.

Ссылка на таблицу с находками
Ссылка на выравнивание Jalview





Something went wrong :(
Рис.1 Консервативные блоки в белке AFM70579.1

Построение карты выравнивания

Something went wrong :(

Для построяения карты выравнивания было выбрано два белка с ID Q5KK71_CRYNJ и G4TAW2_SERID. Первый - белок синтеза витамина B6, второй - не описанный белок. Оба встречаются у грибов подотдела Agaricomycotina. Так как BLAST не всегда распознаёт индентификаторы, последовательности белков были взяты с сайта Uniprot и вставлены в поля для сравнения в BLAST. Результатом является карта выравнивания, которую можно увидеть ниже. Гомологичным оказался участок приблизительно с 20-ой по 167-ую а.к., причём во второй последовательности в начале наблюдаются небольшие делеции. Также участку 143-151 первого белка нашёлся гомологичный участок 668-676 второго белка.


Поиск в BLAST

Для более глубокого понимания BLAST в последнем задании придлагалось провести поиск по случайной послдовательности. Я выбрала две строки Милтона из Paradise Lost без последнего слова (иначе поиск не давал результатов) и пробелов с заменой всех букв o на a (они, понятное дело, мешали поиску, так как "o" не соответствует ни одной а.к.): "allisnatlasttheuncanquerable".
Установленные параметры: база данный SwissProt, 20 тысяч находок и wordsize = 6. Удивительным образом нашлось 20 тысяч результатов(то есть скорее всего результатов ещё больше), правда с весом меньше 40. E-value варировало от 11 до десятков тысяч. Количество находок, наверное, можно объяснить маленькой длиной псевопоследовательности и, возможно, больши количеством буков a и l.
При замене базы данных с SwissProt на non-redundant protein sequences количество находок уменьшилось до 17,8 тысяч.
После замены параметра Expected Threshhold c 10 на 1e-20 количество результатов не сократилось, те осталось больше 20 тысяч. Тогда в добавление к низкому E-value штраф за существаование гэпа был увеличен до 13, а сам поиск проводился по алгоритму DELTA-BLAST. Только тогда удалось добиться значительного уменьшения результатов поиска: 1422.