Программа BLAST

Поиск в Swissprot гомологи белка

В 7 практикуме я писала про белок dITP/XTP pyrophosphatase из бактерии Corynebacterium deserti GIMN1.010. Он относится к базе TrEMBL, поэтому в окно "Enter query sequence" я ввела аминокислотную последовательность из UniProt.

Из параметров я изменила только банк поиска на UniProtKB/Swiss-Prot и максимальный размер выдачи на 500, так как при выборе 100 и 250 находок было ровно 100 и 250 соответственно, а при 500 уже 251. Остальные дополнительные параметры не изменяла:

Ссылка на текстовую выдачу программы

Я выбрала 5 находок: из Corynebacterium deserti, Corynebacterium glutamicum R, Nocardia farcinica IFM 10152, Mycobacterium leprae TN и Frankia alni ACN14a, а так же белок, который был выбран изначально – из Corynebacterium deserti GIMN1.010 с ID A0A0M3QA38_9CORY, ввела в Jalview их ID и построила множественное выравнивание. Вероятно, все белки являются гомологичными, так как наблюдается достаточно много консервативных участков (202-209, 90-100, 112-120).

Гомологи зрелого вирусного белка, вырезанного из полипротеина

После поиска в UniProtKB по запросу (reviewed:true) AND (taxonomy_id:10239) AND (protein_name:polyprotein) я выбрала белок POLR_TYMVC. Его AC – P28477, название вируса – Turnip yellow mosaic virus (isolate TYMC). Ключ – Putative helicase (880-1259). Ссылка на последовательность

Затем был проведён поиск гомологов с теми же параметрами, что и в первом пункте. Ссылка текстовую выдачу программы

Для выравнивания были выбраны 5 белков: POLR_KYMVJ, POLR_OYMV, POLG_MRFVC, RDRP_ACLSP и RDRP_GVAIS. Ссылка на выравнивание. Вероятно, белки гомологичны, так как в середине содержится достаточно много консервативных участков.

Исследование зависимости E-value от объёма банка

При поиске с теми же параметрами BLAST, но с фильтром по организмам список находок не изменился, но у большинства поменялся E-value. Для оценки доли вирусных белков в Swiss-Prot я взяла белок RNA replicase polyprotein [Kennedya yellow mosaic virus (strain Jervis Bay)]. При поиске без фильра E-value равно 3e-119, с фильтром – 1e-120. При делении второго на первое получим долю вирусных белков – ~3%