BLAST

~mashkovskayaav

Характеристики списка находок

► В данном задании был произведен поиск гомологичных последовательностей белка Пантоат-бета-аланин лигазы (AC: ANW71455.1). Характеристика списка найденных последовательностей представлена в Таблице 1.

Таблица 1

Число находок Число находок с E-value < 1·10-3 max E-value
472 470 5.4

Для поиска было установлено максимальное число находок, равное 500, и максимальное допустимое значение E-value, равное 10.

В итоге было найдено 472 последовательности, что меньше максимального допустимого числа находок, следовательно поиск ограничивался значением E-value.

Если в параметрах поиска уменьшать максимальное число находок, то итоговое число находок будет совпадать с указанным критерием.

Если в параметрах поиска увеличивать максимальное значение E-value, то следующее находимое выравнивание будет иметь E-value, равное 22.


Изменение длины слова

► В этот раз для поиска находок была установлена длина слова (минимальное число букв последовательности, которое считывается для поиска гомологов), равная 2. В предыдущем задании бралась длина слова, равная 6. Остальные характеристики поиска совпадают. Результаты представлены в Таблице 2.

Таблица 2

Число находок Число находок с E-value < 1·10-3 max E-value
486 470 9.7

Параметры поиска:

Максимальное число находок: 500

Максимальное допустимое значение E-value: 10

С уменьшением длины слова наблюается увеличение числа находок и максимального найденного значения E-value. Однако число находок с E-value < 1·10-3 совпадает с результатом предыдущего поиска. В итоге различия незначительны, поскольку рост числа находок происходит из-за недостоверных выравниваний с высоким значением E-value.


Изменение объёма поиска

► В упражнении 3 был проведен поиск с указанием конкретного таксона Proteobacteria. В таблице 3 представлено сравнение результатов поиска предыдущего задания и поиска среди белков организов из указанной таксономической группы (область поиска сужается). Для сравнения было взято выравнивание исходного белка (AC:ANW71455.1) и белка с AC=B0TTI1.1 (далее - находка)

Таблица 3

Таксон Число находок Число находок с E-value < 1·10-3 max E-value E- value находки Вес находки
Не указан 486 470 9.7 6·10-99 752 / 294 bits
Proteobacteria 302 288 9.8 2·10-99 752 / 294 bits

В результате поиска с указанием таксона значение E-value для большей части выравниваний уменьшилось, а вес выравнивания в битах остался неизменным.

Так как значение E-value зависит от размера базы данных, то при уменьшении количества последовательностей, среди которых осуществляется поиск, значение E-value также уменьшается.

Вес выравнивания в битах не изменился, т.к. эта характеристика не зависит от размера базы данных. Вес выравнивания, не переведенный в биты, не изменился по случайным причинам.


"Плохая" матрица

В таблице 4 представлено сравнение поисков с использованием матриц BLOSUM62 и PAM250.

Параметры поиска:

Максимальное возможное значение E-value: 10

Максимальное число находок: 500

Таблица 4

Матрица Число находок Число находок с E-value < 1·10-3 max E-value
BLOSUM62 472 470 5.4
PAM250 472 470 6.7

В результате поиска с использованием матрицы PAM250 число находок не изменилось, однако увеличилось значение E-value всех находок.


Другие веб-интерфейсы BLASTP

а) BLAST европейского биоинформатического института:

Основные отличия в параметрах поиска:

- Грубый таксономический поиск (лишь по некоторым царствам, в то время как в NCBI BLAST возможен поиск по множеству крупных и мелких таксономических категорий. Кроме того, в NCBI BLAST возможно построить визуальное отображение таксономического древа организмов, чьи белки были выявлены в результате поиска).

- Больше параметров для поиска в базах данных (прим. отдельно в trembl, в кластерах Uniref, по изоформам белка, по патентам и т.д.).

- Поиск в более специализированных базах данных (прим.IPD-KIR, MEROPS-MPEP и др.).

- Невозможно ввести AC последовательности, необходима сама последовательность в одном из стандартных форматов.

- Невозможно ввести длину слова.

Основные отличия в выдаче результатов:

- Обнаружено большее число схожих последовательностей с теми же параметрами поиска (длина слова неизвестна).

- Результаты представлены в виде сводной таблицы с указанием некоторых параметров (название белка, длина, совпадающие и схожие аминокислотные остатки и т.д.).

- Возможность применять различные фильтры к последовательностям (прим. Цветовая визуализация, где отражена степень схожести белка с исходной последовательностью).

- Возможность получить некоторые побочные данные о находках (прим. упоминания в литературе, реакции с участием белка и многое другое).

► В итоге, данный веб-интерфес очень удобен для поиска гомологичных белков, если необходимо узнать какие-то специфичные особенности (доступ к высоко специализированным базам данных, возможность сразу найти ссылки на литературу, визуализация и т.д).

б) BLAST Uniprot:

Основные отличия в параметрах поиска:

- Малое количество баз данных.

- Грубый таксономический поиск (лишь по некоторым царствам).

- Меньшее количество матриц.

- Поиск возможен по последовательности или по идентификатору последовательности.

- Возможно установить выдачу выравнивания с гэпами/без гэпов.

Основные отличия в выдаче результатов:

- Цветовая визуализация степени схожести белка.

- Указано, какие белки описаны в Swiss-prot, а какие присутствуют лишь в Trembl.

► Данный веб-интерфес удобен для поиска гомологичных белков, если необходимо сразу же перейти к записи последовательности во внутренней системе Uniprot. Кроме того, полезной может оказаться функция получения выравнивания с гэпами или без них.


©Машковская Анна, 2018