Исследовались гомологи белка дегидратаза D(-)-тартрата. Параметры запроса имели следующий вид:
Enter accession number(s), gi(s), or FASTA sequence(s) - BAC51995.1
Databases - Standard databases (nr etc.)
Database - UniProtKB/Swiss-Prot(swissprot)
Algorithm - blastp (protein-protein BLAST)
Max target sequences - 100
Expect threshold - 0.05
Word size - 6
Matrix - BLOSUM62
Gap Costs - Existence: 11 Extension: 1
Filter - Low complexity regions
Всего было найдено 29 белков. Файл с выдачей: 6K0MSGMD016-Alignment.txt.
Помимо данного белка, были взяты еще 6 следующих:
Несложно заметить, что процент идентичности у всех белков очень низкий - ниже 30%. Однако проверим на гомологию.
Результаты выравнивания можно посмотреть здесь: Ссылка на проект.
Отрезок выравнивания с самым консервативным участком можно увидеть ниже:
Самый большой гомологичный участок состоит из 27 аминокислот и находится в промежутке 146-172. Помимо этого часто встречаются небольшие гомологичные участки в 5-10 символов и отдельные "незаменяемые" аминокислоты, которые стоят на определенном месте в каждой последовательности.
Из этого можно сделать вывод, что все выбранные белки гомологичны.
Был взят полипротеин P1234(ID: POLN_SINDV, AC: P03317) организма Sindbis virus (SINV).
Из полипротеина бы выбран белок - РНК-зависимая РНК-полимераза nsP4(RNA-directed RNA polymerase nsP4), его координаты в цепи: 1904-2513. Его последовательность можно посмотреть здесь: Ссылка
По запросу в BLAST нашлось 39 похожих белков, из которых (не считая данный) были отобраны первые 7. Ссылка на текстовую выдачу: Ссылка
Результат выравнивания можно посмотреть здесь: Ссылка
Из представленного фрагмента видно, что белки имеют очень высокий процент сходства, но они не индентичны. Значит, все выбранные белки можно назвать гомологами.
После добавления в предыдущий запрос ограничения по организмам, значение E-value изменилось, но только у части белков. Первые в списки белки, у которых в прошлом запросе значение E-value было равно 0.0 (машинный ноль), этого значения не изменили. У других белков значение менялось следующим образом:
При этом количество белков в выдаче не изменилось.
На примере белка организма Turnip vein-clearing virus посчитаем величину изменения. E-value упало с 3e-07 до 1е-08. Получаем примерно 20. Известно, что значение E-value линейно зависит от размера базы данных, значит круг поиска при изменении запроса также уменьшился примерно в 20 раз. То есть вирусы занимают около ~5% всей базы данных.