Практикум 10

Гомологи белка

Исследовались гомологи белка дегидратаза D(-)-тартрата. Параметры запроса имели следующий вид:

Enter accession number(s), gi(s), or FASTA sequence(s) - BAC51995.1

Databases - Standard databases (nr etc.)

Database - UniProtKB/Swiss-Prot(swissprot)

Algorithm - blastp (protein-protein BLAST)

Max target sequences - 100

Expect threshold - 0.05

Word size - 6

Matrix - BLOSUM62

Gap Costs - Existence: 11 Extension: 1

Filter - Low complexity regions

Всего было найдено 29 белков. Файл с выдачей: 6K0MSGMD016-Alignment.txt.

Помимо данного белка, были взяты еще 6 следующих:

Таблица со списком взятых белков

Несложно заметить, что процент идентичности у всех белков очень низкий - ниже 30%. Однако проверим на гомологию.

Результаты выравнивания можно посмотреть здесь: Ссылка на проект.

Отрезок выравнивания с самым консервативным участком можно увидеть ниже:

Консервативный участок множественного выравнивния

Самый большой гомологичный участок состоит из 27 аминокислот и находится в промежутке 146-172. Помимо этого часто встречаются небольшие гомологичные участки в 5-10 символов и отдельные "незаменяемые" аминокислоты, которые стоят на определенном месте в каждой последовательности.

Из этого можно сделать вывод, что все выбранные белки гомологичны.

Полипротеин

Был взят полипротеин P1234(ID: POLN_SINDV, AC: P03317) организма Sindbis virus (SINV).

Из полипротеина бы выбран белок - РНК-зависимая РНК-полимераза nsP4(RNA-directed RNA polymerase nsP4), его координаты в цепи: 1904-2513. Его последовательность можно посмотреть здесь: Ссылка

По запросу в BLAST нашлось 39 похожих белков, из которых (не считая данный) были отобраны первые 7. Ссылка на текстовую выдачу: Ссылка

Выбранные для выравнивания белки

Результат выравнивания можно посмотреть здесь: Ссылка

Фрагмент выравнивания

Из представленного фрагмента видно, что белки имеют очень высокий процент сходства, но они не индентичны. Значит, все выбранные белки можно назвать гомологами.

Исследование зависимости E-value от объёма банка

После добавления в предыдущий запрос ограничения по организмам, значение E-value изменилось, но только у части белков. Первые в списки белки, у которых в прошлом запросе значение E-value было равно 0.0 (машинный ноль), этого значения не изменили. У других белков значение менялось следующим образом:

До
После

При этом количество белков в выдаче не изменилось.

На примере белка организма Turnip vein-clearing virus посчитаем величину изменения. E-value упало с 3e-07 до 1е-08. Получаем примерно 20. Известно, что значение E-value линейно зависит от размера базы данных, значит круг поиска при изменении запроса также уменьшился примерно в 20 раз. То есть вирусы занимают около ~5% всей базы данных.