Работа с программой BLAST

Поиск в Swiss-Prot гомологов эндонуклеазы MutS2

Был взят белок из 7-го практикума, а именно эндонуклеаза MutS2, последовательность которого использовалась при запуске программы BLAST со следующими параметрами:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 5000
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

По выполнению данного запроса мной была скачана текстовая выдача программы, из которой видно, что всего было найдено 405 результатов. Однако среди них не было обнаружено последовательности, принадлежащей Silvanigrella aquatica, по которой изначально и проводилось выравнивание. Причина заключается в отсутствии в Swiss-Prot белков данной бактерии, а поскольку поиск проводился с использованием исключительно этой базы данных, никакие другие изменения параметров BLAST не помогли бы.

Были отобраны следующие 6 белков:

  1. A6LS00.1Clostridium beijerinckii strain NCIMB 8052 (MUTS2_CLOB8)
  2. B9KYW4.1Thermomicrobium roseum DSM 5159 (MUTS2_THERP)
  3. C5D5Q8.1Geobacillus sp. WCH70 (MUTS2_GEOSW)
  4. Q88V16.1Lactiplantibacillus plantarum WCFS1 (MUTS2_LACPL)
  5. Q8CPL6.1Staphylococcus epidermidis ATCC 12228 (MUTS2_STAES)
  6. C4ZI07.1Agathobacter rectalis ATCC 33656 (MUTS2_AGARV)

Как и при выполнении предыдущего практикума, сначала был создан текстовый файл homologue.txt, содержащий список строк следующего вида: sw:MUTS2_CLOB8. Затем с помощью команды seqret @homologue.txt homologue.fasta этот список был преобразован в формат FASTA. После чего было запущено множественное выравнивание программой muscle:

muscle -align homologue.fasta -output homologue_alignment.fasta

Полученный файл homologue_alignment.fasta с выравниванием был открыт в программе Jalview для визуального анализа.

Проанализировав полученное выравнивание, можно прийти к выводу, что все 6 белков являются гомологами, однако, скорее всего, не по всей длине, о чём свидетельствует расположение консервативных блоков. В центральной части последовательностей видны довольно протяжённые и частые высококонсервативные участки, например блоки 346–375, 388–409, 423–447 и другие. Это позволяет предположить, что в данной области расположен функционально важный домен (например, каталитический или отвечающий за связывание с нуклеиновыми кислотами).

Начальные участки белков содержат лишь редкие консервативные колонки (9–10, 36, 50, 81 и т.д.) — N-концевые области обычно эволюционируют быстрее, поскольку их изменение, как правило, не критично для основной функции. Концевая часть, помимо таких же редких консервативных позиций (536, 600, 631 и т.д.), всё же почти в самом конце содержит 1–2 довольно хороших консервативных блока, например, 767-782. Это довольно необычно, поскольку C-концевая область, как и N-концевая, обычно быстро меняется. Однако, возможно, этот участок важен для взаимодействия с другими белками или для правильного сворачивания.

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Для выполнения данного задания из базы Swiss-Prot среди всех аннотированных вирусных полипротеинов был выбран следующий:

  1. ID: GP_TULV
  2. AC: P0DTJ1
  3. Название вируса: Tula orthohantavirus (Tula virus)

Далее в записи Swiss-Prot в поле FT среди всех найденных ключей CHAIN был выбран зрелый белок с координатами 20-653 и названием Glycoprotein N. Средствами EMBOSS последовательность зрелого белка была вырезана в отдельный файл в fasta-формате. После этого была запущена программа BLAST со следующими параметрами:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 5000
Short queries: yes
Expect threshold: 0.05
Word size: 2
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

По результатам поиска было получено 18 находок, а также скачана текстовая выдача программы. Из всех результатов были выбраны следующие 6:

  1. P0DTJ1.1Orthohantavirus tulaense (GP_TULV)
  2. Q83887.1New York virus (GP_NYV)
  3. P17880.1Seoul virus SR11 (GP_SEOUS)
  4. Q89905.1Orthohantavirus sinnombreense (GP_SINV)
  5. P41266.1Puumala virus p360 (GP_PUUMP)
  6. P16493.1HoJo virus (GP_HANTH)

После этого было выполнено множественное выравнивание по примеру того, что уже было описано ранее, поэтому считаю правильным сразу представить результат в виде проекта в Jalview. Анализируя его, можно понять, что все 6 белков точно являются гомологами, причём довольно близкими, поскольку все последовательности на протяжении всей длины содержат длинные консервативные участки. Это может указывать на то, что данный белок крайне важен для успешного функционирования вируса, при этом любые серьёзные мутации, скорее всего, приводят к потере функции, из-за чего он и сохраняет такую высокую консервативность на протяжении всей длины.

Исследование зависимости E-value от объёма банка

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid:10239)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 5000
Short queries: yes
Expect threshold: 0.05
Word size: 2
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Запустив BLAST повторно, но уже ограничив поиск вирусами с помощью фильтра по организмам, было получено на один результат больше — 19 (текстовая выдача). Новый белок принадлежал вирусу Crimean-Congo hemorrhagic fever virus (штамм IbAr10200) и имел самое большое E-value — 0,005, тогда как все остальные вирусные белки, уже фигурировавшие в предыдущей выдаче, имели E-value, равный 0,0. Это означает так называемый «машинный ноль» и свидетельствует о запредельной достоверности находки.

Однако это изменение выдачи не может помочь в примерной оценке доли вирусных белков в Swiss-Prot, поскольку для этого нужно, чтобы хотя бы у какого-то из результатов, фигурирующих и в первой, и во второй выдаче, изменилось значение E-value. В теории оно должно было понизиться, так как размер банка (n) уменьшается (вирусных белков в базе заведомо меньше), при этом длина исходной последовательности (m) и вес в битах (B) не меняются.

Поэтому был проведён повторный поиск, но уже с другим белком — РНК-зависимой РНК-полимеразой L (RNA-directed RNA polymerase L), взятой из протеома Hantaan virus (штамм 76-118). Далее приводятся параметры программы BLAST при запуске:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid:10239) ← только во 2-м запросе
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 5000
Short queries: yes
Expect threshold: 0.05
Word size: 2
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Сравнивая текстовую выдачу первого запроса (без ограничения по таксонам) и второго (с ограничением), можно заметить, что в этот раз появились результаты, для которых E-value различаются. Для примерной оценки доли вирусных белков в Swiss-Prot можно использовать любой из таких белков, например, P20470.1, принадлежащий Bunyamwera virus. В первой выдаче его E-value составило 2×10⁻¹², а во второй — 8×10⁻¹⁴. Как и предполагалось ранее, значение упало, то есть стало лучше. Используя отношение этих двух E-value, было проведено вычисление доли вирусных белков в базе Swiss-Prot. По моей оценке, она составляет примерно 4%.