Практикум 10
Поиск гомологов белка
Для выполнения практикума 7 я выбрала пиримидин/пурин-нуклеозидфосфорилазу.
Для данного белка в этом заданий я искала гомологи в Swiss-Prot. Для этого я составила на сайте NCBI запрос со следующими параметрами:
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap costs: Existence:11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Результат выдачи
Далее я выбрала 7 белков из следующих организмов:
Sulfurimonas denitrificans DSM 1251
Hydrogenovibrio crunogenus XCL-2
Syntrophotalea carbinolica DSM 2380
Chlorobium chlorochromatii CaD3
Leptospira borgpetersenii serovar Hardjo-bovis str. JB197
Geotalea uraniireducens Rf4
Geobacter sulfurreducens PCA
Для данных белков и изначального белка я создала множественное выравнивание при помощи программы Jalview.
Выравнивание
Можно заметить достаточно много консервативных участков, например, 82-84, 97-101. Ни один из белков не выбивается из общей картины, что позволяет полагать, что все они гомологичны друг другу.
Так же среди выбранных белков есть белок из Sulfurimonas denitrificans; эта бактерия относится к тому же роду, что и бактерия, для белка которой мы ищем гомологов. Можно заметить, что на многих неконсервативных участках в одинаковых положениях эти два белка имеют одинаковые аминокислотные остатки. Например, положения 3, 27, 74-76. Это можно объяснить тем, что они являются наиболее близкими родственниками среди данных организмов и имеют бОльшую схожесть в протеоме.
Поиск гомологов вирусного белка, вырезанного из полипротеина
Для поиска полипротеина я воспользовалась расширенным поиском на сайте UniProt и воспользовалась следующим запросом:
Taxonomy [OC]: Viruses [10239] AND Protein Name [DE]: Polyprotein
Из результатов запроса я выбрала один из полипротеинов. Ниже представлена информация о нем:
ID: GAG_FLV
AC: P10262
OS: Feline leukemia virus
Это полипротеин вируса лейкоза кошачьих. Далее я выбрала один из белков, на которые разрезается данный полипротеин (Capsid protein p30 (198..445)). Последовательность данного белка я сохранила в fasta-формате посредством EMBOSS.
Последовательность вырезанного зрелого белка
Далее данная последовательность была дана на вход BLAST. Параметры аналогичны параметрам, которые использовались в предыдущем заданий.
Результат выдачи
Затем я выбрала 7 последовательностей:
Baboon endogenous virus (strain M7)
Moloney murine leukemia virus (isolate Shinnick)
Cas-Br-E murine leukemia virus
Friend murine leukemia virus (ISOLATE FB29)
Koala retrovirus
Gibbon ape leukemia virus
Woolly monkey sarcoma virus
С помощью Jalview я создала множественное выравнивание для данных последовательностей и удалила ненужные участки (левее и правее выбранной последовательности зрелого белка).
Выравнивание
Можно заметить большое количество высококонсервативных участков (18-23, 26-31, 55-66, 79-84, 93-96, 104-106 и т.д.), что позволяет полагать, что данные белки гомологичны друг другу.
Также стоит отметить участок 247-257. На этом участке 3 из 8 белков имеют схожую аминокислотную последовательность, у остальных на этом участке - гэпы. Это можно объяснить тем, что эти 3 последовательности являются близкородственными, так как относятся к вирусу лейкемии мышей.
Исследование влияния E-value от объёма банка
Для выполнения данного задания я оставила те же параметры BLAST, что и в предыдущих заданиях, однако теперь применила фильтр по организмам (Organism: Viruses (taxid:10239)).
Результат выдачи
Список находок не изменился, однако для находок поменялся E-value.
Для демонстрации этого явления я выбрала последовательность вируса некроза селезёнки птиц (Avian spleen necrosis virus). В случае без фильтра по организму E-value составляет 4e-25. При применении фильтра E-value равен 2e-26.
Если мы рассмотрим формулу для расчета E-value (теорема С.Карлина), то увидим, что, кроме E-value и размера базы данных, остальные параметры остались неизменными (так как все параметры, кроме фильтра по организмам, остались неизменными).
Следовательно, для того, чтобы найти долю вирусных белков в Swiss-Prot, необходимо решить пропорцию, где в числителе – E-value находки при использовании фильтра, а в знаменателе – E-value этой же находки без использования фильтра.
Подставим в данную формулу значения и получим, что доля вирусных белков в Swiss-Prot равна 0,05 (или 5%).
Сравнение интерфейсов BLAST
В данном разделе я решила сравнить интерфейс BLAST на сайте NCBI и на сайте UniProt.
Во-первых, стоит отметить, что отличается выбор баз данных. Например, на сайте NCBI можно выбрать поиск по Refseq. Однако для некоторых целей будет удобнее использовать сайт UniProt: там можно по отдельности рассмотреть кластеры записей по сходству последовательностей (UniRef100, UniRef90, UniRef80). Или, например, на сайте UniProt можно отдельно выбрать UniProtKB с предсказанием 3D структур (Alphafold).
Во-вторых, на сайте UniProt распознаются AC из TrEMBL в отличии от сайта NCBI. Более того, при вводе AC на сайте UniProt в окошке ниже автоматически высвечивается нужная последовательность с кратким описанием. Это бы могло сэкономить мне немного времени при выполнении практикума, так как на сайт NCBI я подгружала файл с последовательностью, который предварительно скачивала.
Также стоит отметить, что на сайте NCBI больше выбора для изменения параметров выравнивания: там можно выбрать матрицу весов аминокислотных замен PAM250 и BLOSUM 90. Эти матрицы нельзя выбрать на сайте UniProt. Более того, на сайте NCBI можно настроить штрафы за гэпы.
Еще одним пунктом для сравнения является история запросов BLAST. На сайте NCBI BLAST хранит результаты всех запросов 36 часов, на сайте UniProt - 7 дней.
В остальном выбор параметров примерно одинаков на двух сайтах.
Мне показалось, что сайт UniProt более удобен для использования, лучше устроена визуализация информации, однако это дело вкуса.
Интерфейс BLAST на обоих сайтах схож. Кажется, стоит выбирать сайт для использования, учитывая особенности конкретно поставленной задачи и личное предпочтение.