В практикуме 7 мной был выбран белок Hypoxanthine phosphoribosyltransferase (AC:C7MC15) из Brachybacterium faecium (strain ATCC 43885 / DSM 4810 / JCM 11609 / LMG 19847 / NBRC 14762 / NCIMB 9860 / 6-10). Последовательность была скачена из Swiss-Prot в формате .fasta и загружена на BLAST. Для поиска гомологов были заданы следующие параметры:
Database - UniProtKB/Swiss-Prot(swissprot)
Algorithm - blastp (protein-protein BLAST)
Algorithm parameters: General parameters:
Max target sequences – 100
Short queries – выбран
Expect threshold – 0.05
Word size – 5
Max matches in a query range – 0
Matrix – BLOSUM62
Gap Costs – Existence: 11 Extension: 1
Compositional adjustments – Conditional compositional score matrix adjustment
Такие параметры, как Filters and Masking, не выбирались. По результатам поиска нашлось 50 гомологов, из которых были выбраны следующие 7:
Listeria monocytogenes EGD-e (Q8YAC7.1)
Bacillus subtilis subsp. subtilis str. 168 (P37472.1)
Vibrio harveyi (P18134.1)
Pan troglodytes (A5A6I1.1)
Gallus gallus (Q9W719.1)
Mus musculus (P00493.3)
Bos taurus (Q3SZ18.3)
Далее было создано множественное выравнивание последовательности своего белка и отобранных находок в Jalview, на основании котрого можно сделать вывод, что белки гомологичны, так как наблюдается большое количество консервативных участков (211-219, 301-307, 444-456, 472-682). Можно отметить, что большинство участков находятся конце, почти все индели располагаются в начале и середине.
Для выполнения данного задания я выбрала следующий полипротеин:
ID: GP_NYV
AC: Q83887
OS: New York virus (NYV)
В качестве зрелого белка я выбрала Envelopment polyprotein c координатами 18-1140. С помощью команды seqret 'sw:gp_nyv[18:1140]' gp_nyv.fasta я вырезала последовательность зрелого белка в отдельный файл в fasta-формате. Для поиска гомологов были заданы те же самые значения параметров в BLAST, что и в первом задании. В результате было найдено 22 результата.
Orthohantavirus nigrorivense (P0DTJ0.1)
Puumala virus bank vole/CG1820/Russia/1984 (P21400.2)
Hantaan virus Lee (P16853.1)
HoJo virus (P16493.1)
Seoul virus 80-39 (P33455.1)
Hazara virus (isolate JC280) (A6XIP3.1)
Crimean-Congo hemorrhagic fever virus strain IbAr10200 (Q8JSZ3.1)
Было проведено множественное выравнивание в Jalview, по результатам котрого можно сделать вывод, что данные последовательности не гомологичны, так как присутсвует много инделей и многие из них довольно протяженной длины: 14-88, 105-125, 177-184, 249-259, 405-418, 733-759, 772-784, 791-827, 837-902, 916-933, 963-998, 1038-1065, 1110-1118, 1248-1257, 1275-1283, 1305-1316, 1477-1484, 1541-1551, 1571-1579.
Был проведен аналогичный поиск, но помимо предыдущих параметров BLAST был применен фильтр по организмам (Organism: Viruses (taxid:10239)). Число находок не изменилось, находится всё так же 22 результата. При использовании фильтра по организмам у 4 из 22 находок поменялось значение E-value, например, у P41264.1 с 5е-153 до 2е-154. Таким образом, доля вирусных белков в Swiss-Prot составляет ~4%.