Произвела поиск по базе данных NR с помощью алгоритма BLAST со следующими параметрами:
| Program | blastp |
| Word size | 6 |
| Expect value | 0.05 |
| Hitlist size | 100 |
| Gapcosts | 11,1 |
| Matrix | BLOSUM62 |
| Filter string | F |
| Genetic Code | 1 |
| Window Size | 40 |
| Threshold | 21 |
| Composition-based stats | 2 |
Было выведено 100 находок
Из них для анализа я выбрала 5.
Перед выравниванием я скачала последовательности в fasta-формате и объединила их при помощи команды
cat *.fasta > all.fasta.
Далее произвела множественное выравнивание командой
muscle -in all.fasta -out align.fasta.
Полученное выравнивание открыла в программе JalView, установила окраску по проценту схожести. Проект доступен по ссылке.
Все выравненные белки гомологичны, поскольку имеют большой процент схожести.
Выбор пал на Gag-Pol полипротеин вируса иммунодефицита человека 1 (ID: POL_HV1H2, AC: P04585, Human immunodeficiency virus type 1 group M subtype B (isolate HXB2) (HIV-1).
Из него я вырезала последовательность протеазы с координатами 489..587 командой
seqret 'sw:POL_HV1H2[489:587]' protease_HIV.fasta.
Далее поиск по базе swissprot произвела по описанному выше алгоритму с аналогичными параметрами. Ниже представлен скриншот результатов работы.
Из выдачи выбрала следующие последовательности: Q9QBZ5.3, P03369.3, P05959.3, P15833.3, P18096.4 .
Далее произвела множественное выравнивание при помощи команды muscle из пакета EMBOSS
Полученное выравнивание открыла в JalView. Проект доступен по ссылке. Удалила буквы из последовательностей полипротеинов уже в JalView
Сперва я произвела поиск BLAST NCBI аналогично предыдущему (но по базе NR), потом ограничив круг поиска вирусными последовательностями. Ниже прикрепляю скриншот выдачи.
В обоих случаях в базе данных очень много гомологичных белков. E-value при сужении поиска уменьшается, поскольку при ограничении базы данных ожидаемое количество выравниваний с весом больше или равным весу выравнивания снижается.
Для анализа выбрала 7 последовательностей.
| Описание последовательности | E-Value | E-Value | Accession | Доля вирусных последовательностей |
| retropepsin [Human immunodeficiency virus 1] | 8E-66 | 4E-64 | NP_705926.1 | 0,02 |
| HIV-1 protease in complex with fluoro substituted diol-based C... | 1E-65 | 5E-64 | 1W5V_A | 0,02 |
| HIV-1 PROTEASE (I84V) COMPLEXED WITH XV638 OF DUPONT... | 1E-65 | 6E-64 | 1BV9_A | 0,0167 |
| HIV-1 protease [Human immunodeficiency virus] | 1E-65 | 7E-64 | CAA09316.1 | 0,0143 |
| Hiv-1 Protease In Complex With The Cyclic Sulfamide Inhibitor... | 1E-65 | 7E-64 | 1AJV_A | 0,0143 |
| Wild type HIV protease bound with GW0385 [Human immunodeficien... | 1E-65 | 7E-64 | 2FDE_A | 0,0143 |
| pol protein [Human immunodeficiency virus 1] | 2E-65 | 1E-63 | AFH76815.1 | 0,02 |
Чтобы оценить долю вирусных белков в Swissprot воспользовалась теоремой Карлина:
, где m - длина последовательности, n - размер базы данных, B - вес выравнивания запроса в битах.
Для нахождения доли вирусных последовательностей поделим e-value из первого поиска на второе, поскольку длины последовательностей и вес совпадают. Вирусные белки составляют 1,5-2% от всех последовательностей.