Практикум 10

или "ну что ж, подождем 4 утра, когда заработает BLAST"

Программа BLAST

1. Поиск в Swiss-Prot гомологов белка A0A0X8GZS8_9FIRM

Параметры, использованные при запуске BLAST:

Enter Query Sequence: последовательность белка в fasta-формате

Databases: Stabdart databases(nr etc.)

Database: UniProtKB/Swiss-Prot(swissprot)

Algorithm: blastp(protein-protein BLAST)

Algorithm parameters

Max target sequences: 250

Short queries: Automatically adjust parameters for short input sequences

Expect threshold: 0.05

Word size: 5

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Рис.1. Запуск BLAST

Выводы:

Текстовая выдача программы: ссылка на выдачу

Находки в fasta-формате: ссылка на находки

Т.к. моего исходного белка не было в Swiss-Prot, я добавила его в файл для выравнивания вручную. Использовала Muscle with defaults, а затем сделала окрашивание по проценту идентичности.

Множественное выравнивание: ссылка на выравнивание

Рис.2. Результат множественного выравнивания

Из полученных данных можно заметить, что нередко белок с AC Q59291.2 "выпадает" из окрашенных блоков. Его E-value, при этом, существенно отличается от остальных: 3e-86(наибольший разрыв только у белка с AC P23247.2: 7e-92, но он в выравнивании вопросов не вызвал). В остальном же, можно сделать вывод, что оставшиеся белки гомологичны.

2. Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Выбор полипротеина

Небольшой дисклеймер: данный полипротеин был выбран только из-за его очень прикольного названия:)

OS: New York virus (NYV)

ID: GP_NYV

AC: Q83887

FT CHAIN: Glycoprotein C, 653-1140

Параметры, которые были использованы при запуске BLAST: аналогично пункту 1.

Выводы:

Вырезанная последовательность белка: ссылка на последовательность

Текстовая выдача программы: ссылка на выдачу

Находки с ненулевым E-value: ссылка на подходящие находки

Множественное выравнивание: ссылка на выравнивание

Рис.3. Результат второго множественного выравнивания

Из полученных данных можно сделать следующий вывод: исходный вирусный белок Glycoprotein C и белки с AC P41264.1, Q09120.1 гомологичны(большое количество идентичных блоков в выравнивании). Два оставшихся белка — нет(большое количество гэпов и несовпадений в выравнивании).

3. Исследование зависимости E-value от объёма банка

Я повторила предыдущий поиск, оставив те же параметры BLAST, лишь применила фильтр по организмам, ограничив поиск вирусами (Viruses). Список находок BLAST остался неизменным. Так, во втором пункте из заданий их было 22, после применения фильтра их также осталось 22. Однако изменились значения E-value. Так, например, до применения фильтра у белка с AC Q09120.1 E-value было 1e-115, а у белка с AC A6XIP3.1: 1e-04. После применения фильтра эти значения поменялись на 4e-117 и 4e-06, соответственно.

Применив формулу (E-value для поиска по вирусам)/(E-value для обычного поиска без фильтров) получила:

4e-117/1e-115 = 0.04 = 4%

4e-06/1e-04 = 0.04 = 4%

Таким образом получилось, что доля вирусных белков в Swiss-Prot составила ~ 4%