Работа с гомологами белка recA Neptuniibacter halophilus.
Сначала я запустил BLAST для последовательности своего белка. Ниже приведены все параметры, отличающиеся от параметров по умолчанию, а также запрос.
Database:
swissprot
Max target sequences:
50
Query:
ref|WP_286236855.1|
После выполнения запроса я нашёл семь подходящих белков с E-value больше "машинного нуля" и получил FASTA-файл с нужными последовательностями.
Далее я открыл его в JalView и запустил Muscle. Получил и покрасил выравнивание. Также отсортировал его по попарной идентичности.
Белки из выравнивания решил не удалять. Активный центр (GPESSGKT)[1] оказался консервативным, а в прочих позициях нет радикально отличающихся доменов.
Сначала нужно найти такую запись в UniProt. Я решил работать с ВИЧ.
UniProtKB:
(taxonomy_id:11676) AND (protein_name:polyprotein) AND (reviewed:true)
Было получено 125 находок. Среди них я выбрал самую большую:
Дальше я нашёл все ключевые слова 'CHAIN', выбрал последовательность для обратной транскриптазы и вырезал её.
Bash:
grep -A 1 'CHAIN' O91080.swiss | less
less:
FT CHAIN 598..1157
FT /note="Reverse transcriptase/ribonuclease H"
Bash:
seqret -sequence "O91080.swiss[598:1157]" -outseq revtrans.txt
Я скопировал последовательность из файла, полученного выше, и запустил по ней BLAST.
Database:
swissprot
Max target sequences:
100
Query:
>unnamed protein product PISPIETVPVKLKPGMDGPKVKQWPLTTEKIEALREICTEMEKEGKISRIGPENPYNTPIFAIKKKDSTK WRKLVDFRELNKRTQDFWEVQLGIPHPAGLKQKKSVTVLDVGDAYFSCPLDKDFRKYTAFTIPSINNETP GIRYQYNVLPQGWKGSPAIFQSTMTKILEPFREKHPEIIIYQYMDDLYVGSDLELAQHREAVEDLRDHLL KWGFTTPDKKHQKEPPFLWMGYELHPDKWTVQPIKLPEKDVWTVNDIQKLVGKLNWASQIYPGIRVKQLC KLIRGTKALTEVVNFTEEAELELAENREILKEPLHGVYYDPGKELVAEIQKQGQGQWTYQIYQELHKNLK TGKYAKMRSAHTNDIKQLVEVVRKVATESIVIWGKTPKFRLPVQKEVWEAWWTDHWQATWIPEWEFVNTP PLVKLWYQLETEPISGAETFYVDGAANRETKLGKAGFVTDRGRQKVVSIADTTNQKAELQAILMALQESG RDVNIVTDSQYAMGIIHSQPDKSESELVSQIIEELIKKERVYLSWVPAHKGIGGNEQVDKLVSSGIRKIL
Я получил результаты и выбрал 8 белков, в том числе один для Homo sapiens (Endogenous retrovirus group K member 7 Pol protein). FASTA-файл
Получено выравнивание.
Также я запустил BLAST второй раз, но уже только для Viruses
Database:
swissprot
Max target sequences:
100
Organism:
Viruses (taxid:10239)
Query:
>unnamed protein product PISPIETVPVKLKPGMDGPKVKQWPLTTEKIEALREICTEMEKEGKISRIGPENPYNTPIFAIKKKDSTK WRKLVDFRELNKRTQDFWEVQLGIPHPAGLKQKKSVTVLDVGDAYFSCPLDKDFRKYTAFTIPSINNETP GIRYQYNVLPQGWKGSPAIFQSTMTKILEPFREKHPEIIIYQYMDDLYVGSDLELAQHREAVEDLRDHLL KWGFTTPDKKHQKEPPFLWMGYELHPDKWTVQPIKLPEKDVWTVNDIQKLVGKLNWASQIYPGIRVKQLC KLIRGTKALTEVVNFTEEAELELAENREILKEPLHGVYYDPGKELVAEIQKQGQGQWTYQIYQELHKNLK TGKYAKMRSAHTNDIKQLVEVVRKVATESIVIWGKTPKFRLPVQKEVWEAWWTDHWQATWIPEWEFVNTP PLVKLWYQLETEPISGAETFYVDGAANRETKLGKAGFVTDRGRQKVVSIADTTNQKAELQAILMALQESG RDVNIVTDSQYAMGIIHSQPDKSESELVSQIIEELIKKERVYLSWVPAHKGIGGNEQVDKLVSSGIRKIL
FASTA-файл с выбранными белками
По этому запросу все ненулевые E-value стали меньше, чем по первому, а белки, в систематике которых был указан Homo sapiens, больше не отображались.
Например, для кошачьего иммунодефицита в первом случае E-value - 2e-159, а во втором - 1e-160. Второе очевидно меньше.
Я поделил первое на второе, чтобы нивеллировать влияние констант. Вирусных оказалось в 20 раз меньше, чем прочих белков. Для трёх белков кошачьего иммунодефицита это значение оказалось равным 16,689.
Изменение E-value я связываю с уменьшением набора последовательностей по которым мы производим поиск. Таким образом, случайная последовательность имеет меньшую вероятность совпадения с некоторой последовательностью из набора.