Так как у бактерии Succinivibrio dextrinosolvens нет белков, находящихся в базе Swiss-Prot, был выбран белок бактерии Succinatimonas hippei, находящейся в одном семействе Succinivibrionaceae с бактерией Succinivibrio dextrinosolvens. Данный белок является трансферазой и выполняет функцию переноса ацетильной группы.
Для поиска голомов в BLAST были использованы следующие параметры:
Датабаза: Swiss-Prot
Ввод последовательности: E8LIC0
Алгоритм: blastp
Algorithm parameters
Максимальный размер выдачи: 500
Word size: 5
порог на E-value: 0,05
матрица: BLOSUM62
Штрафы за открытие и закрытие гэпов: открытие - 11, закратие - 1
Композиционные корректировки: условная компазиционная корректировка матрицы счета
При выравнивании все белки оказались гомологичными в равной степени, так как все крупные консервативные блоки совпадают. Например, блоки 41-48, 106-110, 189-193, 233-239.
Ссылки:
С помощью расширенного поиска Uniprot был найден и выбран вирусный белок Puumala virus (strain P360).
Информация о выбранном белке:
ID: GP_PUUMP
AC: P41266
OS: Puumala virus (strain P360)
CHAIN: Glycoprotein N
CHAIN coordinates: 24..658
С помощью команд EMBOSS последовательность зрелого белка была вырезана в отдельный файл с измененным названием и описанием. Команда: descseq -seq 'sw:GP_PUUMP[24:658]' -out ssegment.fasta -name "Envelopment polyprotein" -desc "OS=Puumala virus (strain P360)(M polyprotein)"
По запросу в BLAST было найдено 19 последовательностей, 18 из которых имеют E-value 0.0, что свидетельствует о достоверности этих находок.
Из результатов выравнивания можно сделать вывод, что все последовательности белков гомологичны. В выравнивании присутсвует несколько консервативных блоков (Например: 11-13, 42-45, 117-118, 127-129, 158-159, 170-171, 173-174, 270-274, 321-322, 433-439, 464-469, 635-639), однако одна последовательность не входит ни в один из них.
Ссылки:
При изменении поиска с помощью добавления поиска по организму (Organism: Viruses (taxid:10239)) количество находок не изменилось, однако изменилось значение E-value для некторых из них.
Из проделаннного эксперимента можно сделать вывод, что с уменьшением базы уменьшается и E-value. Это можно подтвердить с помощью формулы С.Карлина E-value=Kmn·e^-λS, где n - размер базы. Из формулы видно, что E-value изменяется прямопропорциально размеру базы. Поэтоиу можно посчитать какю долю вирусные составляют в базе Swiss-Prot. Например для белка с AC Q09120 E-value2/E-value1 * 100% = 4,2%. Следовательно доля вирусных белков: 4,2%.
Чтобы сравнить интерфейсы BLAST в NCBI, EBI и Uniprot, был проведен поиск гомологов для белка c ID METAA_SUCHY.
NCBI:
• Наиболее широкие параметры настройки поиска
• На первый взгляд интерфейс выглядит пугающе, но со временем очень просто привыкнуть и разобраться
• Удобно, что результат можно автоматически открывать в новом окне, оставляя при этом страницу с заданными параметрами поиска
• Формат вывода результатов наименее приятный и понятный, но конечно, содержательный
EBI:
• Из минусов: поиск только по последовательности
• Параметров поиска больше, чем в Uniprot, но, если честно, я их увидела не сразу
• Не очень удобный формат общей выдачи результатов (Summary Table), при этом остальные результаты удобны для обработки и очень наглядны
Uniprot:
• За несколько практикумов интерфейс стал привычным и приятным
• Удобный формат установки параметров поиска, которые присутсвуют в необходимом объеме
• Формат вывода результатов удобный, хоть и не такой обширный, как в EBI
• Есть страница с параметрами поиска, что, в целом, удобно и, из необычного, таксономическое дерево
Таким образом, наиболее удобным мне показался BLAST в EBI и Uniprot, хотя большее доверие почему-то BLAST NCBI.
Случайная последовательность для выполнения данного задания была сгенерирована с помощью скрипта Python. В результате поиска в BLAST при E-value = 10 было найдено 2 гомолога с E-value 6.7 и 8.6. Интересно, что первый принадлежит бактерии Stenotrophomonas maltophilia (strain K279a), а второй мыши Mus musculus. Выравнивания последовательностей очень короткие, а значения E-value очень высокие. Поэтому бессмысленная последовательность действительно бессмысленна, хоть к ней и были найдены гомологи.
Protein | Identities | Positives | Gaps |
---|---|---|---|
KMO_STRMK | 7/17(41%) | 14/17(82%) | 0/17(0%) |
SERC4_MOUSE | 15/39(38%) | 24/39(61%) | 1/39(2%) |
Ссылки: