◊ Характеристики списка находок
► В данном задании был произведен поиск гомологичных последовательностей белка Пантоат-бета-аланин лигазы (AC: ANW71455.1). Характеристика списка найденных последовательностей представлена в Таблице 1.
Таблица 1
Число находок | Число находок с E-value < 1·10-3 | max E-value |
472 | 470 | 5.4 |
Для поиска было установлено максимальное число находок, равное 500, и максимальное допустимое значение E-value, равное 10.
В итоге было найдено 472 последовательности, что меньше максимального допустимого числа находок, следовательно поиск ограничивался значением E-value.
Если в параметрах поиска уменьшать максимальное число находок, то итоговое число находок будет совпадать с указанным критерием.
Если в параметрах поиска увеличивать максимальное значение E-value, то следующее находимое выравнивание будет иметь E-value, равное 22.
◊ Изменение длины слова
► В этот раз для поиска находок была установлена длина слова (минимальное число букв последовательности, которое считывается для поиска гомологов), равная 2. В предыдущем задании бралась длина слова, равная 6. Остальные характеристики поиска совпадают. Результаты представлены в Таблице 2.
Таблица 2
Число находок | Число находок с E-value < 1·10-3 | max E-value |
486 | 470 | 9.7 |
Параметры поиска:
Максимальное число находок: 500
Максимальное допустимое значение E-value: 10
С уменьшением длины слова наблюается увеличение числа находок и максимального найденного значения E-value. Однако число находок с E-value < 1·10-3 совпадает с результатом предыдущего поиска. В итоге различия незначительны, поскольку рост числа находок происходит из-за недостоверных выравниваний с высоким значением E-value.
◊ Изменение объёма поиска
► В упражнении 3 был проведен поиск с указанием конкретного таксона Proteobacteria. В таблице 3 представлено сравнение результатов поиска предыдущего задания и поиска среди белков организов из указанной таксономической группы (область поиска сужается). Для сравнения было взято выравнивание исходного белка (AC:ANW71455.1) и белка с AC=B0TTI1.1 (далее - находка)
Таблица 3
Таксон | Число находок | Число находок с E-value < 1·10-3 | max E-value | E- value находки | Вес находки |
Не указан | 486 | 470 | 9.7 | 6·10-99 | 752 / 294 bits |
Proteobacteria | 302 | 288 | 9.8 | 2·10-99 | 752 / 294 bits |
В результате поиска с указанием таксона значение E-value для большей части выравниваний уменьшилось, а вес выравнивания в битах остался неизменным.
Так как значение E-value зависит от размера базы данных, то при уменьшении количества последовательностей, среди которых осуществляется поиск, значение E-value также уменьшается.
Вес выравнивания в битах не изменился, т.к. эта характеристика не зависит от размера базы данных. Вес выравнивания, не переведенный в биты, не изменился по случайным причинам.
◊ "Плохая" матрица
В таблице 4 представлено сравнение поисков с использованием матриц BLOSUM62 и PAM250.
Параметры поиска:
Максимальное возможное значение E-value: 10
Максимальное число находок: 500Таблица 4
Матрица | Число находок | Число находок с E-value < 1·10-3 | max E-value |
BLOSUM62 | 472 | 470 | 5.4 |
PAM250 | 472 | 470 | 6.7 |
В результате поиска с использованием матрицы PAM250 число находок не изменилось, однако увеличилось значение E-value всех находок.
◊ Другие веб-интерфейсы BLASTP
а) BLAST европейского биоинформатического института:
Основные отличия в параметрах поиска:
- Грубый таксономический поиск (лишь по некоторым царствам, в то время как в NCBI BLAST возможен поиск по множеству крупных и мелких таксономических категорий. Кроме того, в NCBI BLAST возможно построить визуальное отображение таксономического древа организмов, чьи белки были выявлены в результате поиска).
- Больше параметров для поиска в базах данных (прим. отдельно в trembl, в кластерах Uniref, по изоформам белка, по патентам и т.д.).
- Поиск в более специализированных базах данных (прим.IPD-KIR, MEROPS-MPEP и др.).
- Невозможно ввести AC последовательности, необходима сама последовательность в одном из стандартных форматов.
- Невозможно ввести длину слова.
Основные отличия в выдаче результатов:
- Обнаружено большее число схожих последовательностей с теми же параметрами поиска (длина слова неизвестна).
- Результаты представлены в виде сводной таблицы с указанием некоторых параметров (название белка, длина, совпадающие и схожие аминокислотные остатки и т.д.).
- Возможность применять различные фильтры к последовательностям (прим. Цветовая визуализация, где отражена степень схожести белка с исходной последовательностью).
- Возможность получить некоторые побочные данные о находках (прим. упоминания в литературе, реакции с участием белка и многое другое).
► В итоге, данный веб-интерфес очень удобен для поиска гомологичных белков, если необходимо узнать какие-то специфичные особенности (доступ к высоко специализированным базам данных, возможность сразу найти ссылки на литературу, визуализация и т.д).
б) BLAST Uniprot:
Основные отличия в параметрах поиска:
- Малое количество баз данных.
- Грубый таксономический поиск (лишь по некоторым царствам).
- Меньшее количество матриц.
- Поиск возможен по последовательности или по идентификатору последовательности.
- Возможно установить выдачу выравнивания с гэпами/без гэпов.
Основные отличия в выдаче результатов:
- Цветовая визуализация степени схожести белка.
- Указано, какие белки описаны в Swiss-prot, а какие присутствуют лишь в Trembl.
► Данный веб-интерфес удобен для поиска гомологичных белков, если необходимо сразу же перейти к записи последовательности во внутренней системе Uniprot. Кроме того, полезной может оказаться функция получения выравнивания с гэпами или без них.
©Машковская Анна, 2018