Произвела поиск по базе данных NR с помощью алгоритма BLAST со следующими параметрами:
Program | blastp |
Word size | 6 |
Expect value | 0.05 |
Hitlist size | 100 |
Gapcosts | 11,1 |
Matrix | BLOSUM62 |
Filter string | F |
Genetic Code | 1 |
Window Size | 40 |
Threshold | 21 |
Composition-based stats | 2 |
Было выведено 100 находок
Из них для анализа я выбрала 5.
Перед выравниванием я скачала последовательности в fasta-формате и объединила их при помощи команды
cat *.fasta > all.fasta
.
Далее произвела множественное выравнивание командой
muscle -in all.fasta -out align.fasta
.
Полученное выравнивание открыла в программе JalView, установила окраску по проценту схожести. Проект доступен по ссылке.
Все выравненные белки гомологичны, поскольку имеют большой процент схожести.
Выбор пал на Gag-Pol полипротеин вируса иммунодефицита человека 1 (ID: POL_HV1H2, AC: P04585, Human immunodeficiency virus type 1 group M subtype B (isolate HXB2) (HIV-1).
Из него я вырезала последовательность протеазы с координатами 489..587 командой
seqret 'sw:POL_HV1H2[489:587]' protease_HIV.fasta
.
Далее поиск по базе swissprot произвела по описанному выше алгоритму с аналогичными параметрами. Ниже представлен скриншот результатов работы.
Из выдачи выбрала следующие последовательности: Q9QBZ5.3, P03369.3, P05959.3, P15833.3, P18096.4 .
Далее произвела множественное выравнивание при помощи команды muscle из пакета EMBOSS
Полученное выравнивание открыла в JalView. Проект доступен по ссылке. Удалила буквы из последовательностей полипротеинов уже в JalView
Сперва я произвела поиск BLAST NCBI аналогично предыдущему (но по базе NR), потом ограничив круг поиска вирусными последовательностями. Ниже прикрепляю скриншот выдачи.
В обоих случаях в базе данных очень много гомологичных белков. E-value при сужении поиска уменьшается, поскольку при ограничении базы данных ожидаемое количество выравниваний с весом больше или равным весу выравнивания снижается.
Для анализа выбрала 7 последовательностей.
Описание последовательности | E-Value | E-Value | Accession | Доля вирусных последовательностей |
retropepsin [Human immunodeficiency virus 1] | 8E-66 | 4E-64 | NP_705926.1 | 0,02 |
HIV-1 protease in complex with fluoro substituted diol-based C... | 1E-65 | 5E-64 | 1W5V_A | 0,02 |
HIV-1 PROTEASE (I84V) COMPLEXED WITH XV638 OF DUPONT... | 1E-65 | 6E-64 | 1BV9_A | 0,0167 |
HIV-1 protease [Human immunodeficiency virus] | 1E-65 | 7E-64 | CAA09316.1 | 0,0143 |
Hiv-1 Protease In Complex With The Cyclic Sulfamide Inhibitor... | 1E-65 | 7E-64 | 1AJV_A | 0,0143 |
Wild type HIV protease bound with GW0385 [Human immunodeficien... | 1E-65 | 7E-64 | 2FDE_A | 0,0143 |
pol protein [Human immunodeficiency virus 1] | 2E-65 | 1E-63 | AFH76815.1 | 0,02 |
Чтобы оценить долю вирусных белков в Swissprot воспользовалась теоремой Карлина:
, где m - длина последовательности, n - размер базы данных, B - вес выравнивания запроса в битах.
Для нахождения доли вирусных последовательностей поделим e-value из первого поиска на второе, поскольку длины последовательностей и вес совпадают. Вирусные белки составляют 1,5-2% от всех последовательностей.