Практикум 10

Работа с гомологами белка recA Neptuniibacter halophilus.

Поиск гомологов выбранного мной белка в Swiss-Prot

Сначала я запустил BLAST для последовательности своего белка. Ниже приведены все параметры, отличающиеся от параметров по умолчанию, а также запрос.

Database:

swissprot
Max target sequences:

50
Query:

ref|WP_286236855.1|

После выполнения запроса я нашёл семь подходящих белков с E-value больше "машинного нуля" и получил FASTA-файл с нужными последовательностями.

Далее я открыл его в JalView и запустил Muscle. Получил и покрасил выравнивание. Также отсортировал его по попарной идентичности.

Белки из выравнивания решил не удалять. Активный центр (GPESSGKT)^[1] оказался консервативным, а в прочих позициях нет радикально отличающихся доменов.

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot

Сначала нужно найти такую запись в UniProt. Я решил работать с ВИЧ.

UniProtKB:

(taxonomy_id:11676) AND (protein_name:polyprotein) AND (reviewed:true)

Было получено 125 находок. Среди них я выбрал самую большую:

ID: POL_HV1YF
AC: O91080
OS: Human immunodeficiency virus type 1 group N (isolate YBF30) (HIV-1).

Дальше я нашёл все ключевые слова 'CHAIN', выбрал последовательность для обратной транскриптазы и вырезал её.

Bash:

grep -A 1 'CHAIN' O91080.swiss | less
less:

FT CHAIN 598..1157

FT /note="Reverse transcriptase/ribonuclease H"
Bash:

seqret -sequence "O91080.swiss[598:1157]" -outseq revtrans.txt

Я скопировал последовательность из файла, полученного выше, и запустил по ней BLAST.

Database:

swissprot
Max target sequences:

100
Query:

>unnamed protein product PISPIETVPVKLKPGMDGPKVKQWPLTTEKIEALREICTEMEKEGKISRIGPENPYNTPIFAIKKKDSTK WRKLVDFRELNKRTQDFWEVQLGIPHPAGLKQKKSVTVLDVGDAYFSCPLDKDFRKYTAFTIPSINNETP GIRYQYNVLPQGWKGSPAIFQSTMTKILEPFREKHPEIIIYQYMDDLYVGSDLELAQHREAVEDLRDHLL KWGFTTPDKKHQKEPPFLWMGYELHPDKWTVQPIKLPEKDVWTVNDIQKLVGKLNWASQIYPGIRVKQLC KLIRGTKALTEVVNFTEEAELELAENREILKEPLHGVYYDPGKELVAEIQKQGQGQWTYQIYQELHKNLK TGKYAKMRSAHTNDIKQLVEVVRKVATESIVIWGKTPKFRLPVQKEVWEAWWTDHWQATWIPEWEFVNTP PLVKLWYQLETEPISGAETFYVDGAANRETKLGKAGFVTDRGRQKVVSIADTTNQKAELQAILMALQESG RDVNIVTDSQYAMGIIHSQPDKSESELVSQIIEELIKKERVYLSWVPAHKGIGGNEQVDKLVSSGIRKIL

Выдача BLAST.

Я получил результаты и выбрал 8 белков, в том числе один для Homo sapiens (Endogenous retrovirus group K member 7 Pol protein). FASTA-файл

Получено выравнивание.

Также я запустил BLAST второй раз, но уже только для Viruses

Database:

swissprot
Max target sequences:

100
Organism:

Viruses (taxid:10239)
Query:

>unnamed protein product PISPIETVPVKLKPGMDGPKVKQWPLTTEKIEALREICTEMEKEGKISRIGPENPYNTPIFAIKKKDSTK WRKLVDFRELNKRTQDFWEVQLGIPHPAGLKQKKSVTVLDVGDAYFSCPLDKDFRKYTAFTIPSINNETP GIRYQYNVLPQGWKGSPAIFQSTMTKILEPFREKHPEIIIYQYMDDLYVGSDLELAQHREAVEDLRDHLL KWGFTTPDKKHQKEPPFLWMGYELHPDKWTVQPIKLPEKDVWTVNDIQKLVGKLNWASQIYPGIRVKQLC KLIRGTKALTEVVNFTEEAELELAENREILKEPLHGVYYDPGKELVAEIQKQGQGQWTYQIYQELHKNLK TGKYAKMRSAHTNDIKQLVEVVRKVATESIVIWGKTPKFRLPVQKEVWEAWWTDHWQATWIPEWEFVNTP PLVKLWYQLETEPISGAETFYVDGAANRETKLGKAGFVTDRGRQKVVSIADTTNQKAELQAILMALQESG RDVNIVTDSQYAMGIIHSQPDKSESELVSQIIEELIKKERVYLSWVPAHKGIGGNEQVDKLVSSGIRKIL

Выдача BLAST.

FASTA-файл с выбранными белками

Исследование зависимости E-value от объёма банка

По этому запросу все ненулевые E-value стали меньше, чем по первому, а белки, в систематике которых был указан Homo sapiens, больше не отображались.

Например, для кошачьего иммунодефицита в первом случае E-value - 2e-159, а во втором - 1e-160. Второе очевидно меньше.

Я поделил первое на второе, чтобы нивеллировать влияние констант. Вирусных оказалось в 20 раз меньше, чем прочих белков. Для трёх белков кошачьего иммунодефицита это значение оказалось равным 16,689.

Изменение E-value я связываю с уменьшением набора последовательностей по которым мы производим поиск. Таким образом, случайная последовательность имеет меньшую вероятность совпадения с некоторой последовательностью из набора.

Источники:

recA для Bacillus subtilis - UniProt.