Blast

Гомологи своего белка из практикума 8

Документ с результатом поиска: документ

Ниже представлена информация о том, какие параметры использовались при поиске:

Для выравнивания были взяты 5 последовательностей, которые имеют наименьшее значение E-value и достаточно высокий процент идентичности (должен быть более 25%, но были взяты последовательности с процентом идентичности больше 50%).

Выравнивание

По итогам выраванивания можно говорить о гомологичности белков, так как последовательности имеют много участков гомологичности. Также стоит заметить, что если скрыть белок, который рассматривался в практикуме 8, то результаты говорят о еще большей гомологичности, что может служить еще одним доказательством гомологичности среди них, однако это также говорит об эволюционных изменениях, которые затронули многие группы организмов..

Выравнивание

Файл с проектом: файл

Гомологи вирусного белка

Ниже предоставлена информация о белке взятого для исследования из UniProt:

Файл с вырезанной последовательностью: файл

Документ с результатом поиска: документ

Для выравнивания были взяты 5 последовательностей, которые имеют наименьшее значение E-value, но отличный от нуля. Далее к ним был добавлен вырезанный сегмент из полипротеина. Затем выполнялось выравнивание, оно было сделано сначала с помощью MSAprobs, но оно имело подозрительный вид, так как в нем не было участков, которые стоило вырезать, поэтому было сделано так же выравнивание при помощи ClustalO, в нем были участки, которые были вырезаны. Поэтому в итоговом проекте находятся оба выравнивания.

По итогам выравнивания можно видеть, что данные последовательности имеют несколько консервативных участков, однако это не является правдой для всей их длины. Поэтому про гомологичность этих белков можно говорить основываясь на E-value и проценте идентичности. Также можно отметить, что ClustalO более точный алгоритм, нежели MSAprobs, причина этому кроется в том, какие факторы использует алгоритм, а именно использование знаний из других парных выравниваний при обработке данных дает лучший результат в отличие от использования информации из неоптимальных выравниваний.

Файл с выравниваниями: файл

Исследование зависимости E-value от объёма банка

Документ с результатом поиска: документ

Повторив поиск из предыдущего пункта с ограничением по вирусами (Viruses), мы увидим, что список находок уменьшился с 50 до 33, также изменились значения E-value — увеличились примерно на 1-3 порядка. Значение E-value зависит от размера базы данных линейно, поэтому мы можем примерно оценить долю вирусных белков в Swissprot, а именно мы получим значение 2e-10/5e-09=0.04

Примерная доля вирусных белков в базе Swiss-prot составляет 0,04 (4%).