Учебная страничка Васюткиной Ольги

Поиск по аннотации в Uniprot

В прошлой работе я познакомилась с базой данных белковых последовательностей Uniprot. Эта работа посвящена поиску в ней.

Поиск белков-компонентов АТФ-синтазы моей археи

АТФ-синтаза - это белковый комплекс, который синтезирует АТФ из АДФ и фосфата. У архей встречается АТФ-синтаза типа VOV1, она состоит из α- и B-субъединиц, каждая из них, в свою очередь, состоит из нескольких белков. Далее термином "субъединица" я буду называть как α- и B-субъединицы, так и их части.
Изображение составных частей АТФ-синтазы типа VOV1 представлено на рис. 1.

Рис. 1

Рис. 1. Схема строения АТФ-синтазы типа VOV1. Взято отсюда.

В прошлом семестре я уже работала с генами, кодирующими белки В-субъединицы АТФ-синтазы археи Methanococcus voltae: ссылка на работу. Там находится таблица, описывающая гены и их продукты.
Я искала белки В-субъединицы (большой) АТФ-синтазы в Uniprot, используя расширенный поиск (Advanced Search). Правильный результат получился не сразу, всю историю запросов с моими комментариями можно посмотреть в таблице: загрузить.
Итоговый запрос:

((name:"atp synthase" OR name:"atpase subunit") NOT name:transporter) AND organism:"Methanococcus voltae (strain ATCC BAA-1334 / A3) [456320]"

В итоге удалось найти практически все белки АТФ-синтазы. Файл с их последовательностями в формате .fasta: загрузить.
Скриншот результата поиска показан на рис. 2.

Рис. 2

Рис. 2. Результат поиска в Uniprot белков АТФ-синтазы археи Methanococcus voltae. Источник.

Вот некоторые выводы из результатов поиска:

  • Удалось найти 7 из 8 белков АТФ-синтазы, отдельный поиск белка G-субъединицы не дал результатов. Возможно, она идентична E.
  • Все найденные белки относятся к разделу TrEMBL базы данных Uniprot, то есть не были проверены экспертом.
  • Существование белка H только предсказано (Predicted). Вывод о существовании остальных сделан из гомологии с известным белком ( Inferred from homology). Видимо, части АТФ-синтазы были выделены и изучены у близкого родственника.
  • Все гены найденных белков расположены очень близко друг к другу в геноме, то есть они ко-локализованные.

Поиск белков-компонентов АТФ-синтазы у археи другого вида

Далее я составила аналогичный запрос для археи Methanococcus maripaludis (strain S2 / LL), которая относится к тому же роду.
Запрос выглядит так:

(((name:"atp synthase" OR name:"atpase subunit") NOT name:transporter) AND organism:"Methanococcus maripaludis (strain S2 / LL)")

Обнаружились новые субъединицы АТФ-синтазы: I и K, которых не было найдено у Methanococcus voltae.
Файл с последовательностями белков в формате .fasta: загрузить. Посмотреть все находки можно на рис. 3.

Рис. 3

Рис. 3. Результат поиска в Uniprot белков АТФ-синтазы археи Methanococcus maripaludis (strain S2 / LL).

Сравним найденные записи о белках Methanococcus maripaludis (strain S2 / LL) с находками для Methanococcus voltae:

  • Было найдено 9 белков субъединиц АТФ-синтазы, в том числе те, о существовании которых я не знала раньше.
  • 5 из 9 записей относятся к разделу Swiss-Prot.
  • Снова не встретилось белков с доказательством их существования на уровне белка (Evidence at protein level) или хотя бы на уровне транскрипта (Evidence at transcript level). Субъединицы I и H только предсказаны (Predicted), остальные гомологичны известным белкам ( Inferred from homology).
  • Все гены расположены подряд в ДНК (номера их генов от MMP1038 до MMP1046), они также ко-локализованные.

Поиск гомологов субъединицы АТФ-синтазы

Теперь выберем одну из субъединиц АТФ-синтазы и поищем гомологичные ей белки, то есть те, что имеют с ней общее происхождение. Вначале я искала все А-субъединицы АТФ-синтаз архей по запросу:

name:"V-type atp synthase" AND gene:"atpA" AND taxonomy:"Archaea [2157]"

Но таким образом нашлось 284 последовательности, очень большое количество для гомологов. К тому же, очевидно, что группа архей слишком большая, чтобы можно было утверждать о гомологии белков у любых двух организмов внутри нее. Поэтому я использовала BLAST на сайте Uniprot, чтобы найти наиболее похожие последовательности. Параметры я оставила те, что были по умолчанию: Database – UniProtKb, Threshold – 10, Matrix – Auto, Filtering – None, Gapped – yes, Hits – 250. Далее были выбраны 10 гомологов. В приоритете были последовательности из раздела Swiss-Prot, имеющие большое сходство с исходной последовательностью, но относящиеся к организму, наименее родственному Methanococcus voltae. На рис. 4 показаны результаты BLAST, галочкой отмечены выбранные белки. На рис. 5 показано дерево сходства (Guide tree) их последовательностей.
Файл с последовательностями белков в формате .fasta: загрузить.

Рис. 4

Рис. 4. Результаты BLAST белка субъединицы А АТФ-синтазы археи Methanococcus voltae

Рис. 5

Рис. 5. Дерево сходства гомологичных последовательностей

Сводная таблица протеома археи Methanococcus voltae

Я решила посмотреть, сколько всего последовательностей белков моей археи содержится в базе данных Uniprot, и насколько изучены эти белки. Чтобы получить список всех последовательностей, я написала запрос:

organism:"Methanococcus voltae (strain ATCC BAA-1334 / A3)"

Всего было найдено 1658 записей. Я сохранила результаты поиска в таблицу Excel, чтобы построить сводную таблицу по этим данным и посмотреть, сколько записей принадлежат разделу Swiss-Prot, а сколько - разделу TrEMBL. Также мне хотелось узнать, есть ли экспериментально подтвержденные и изученные белки (Evidence at protein level). Оказалось, что таких нет. Все записи в графе Protein existence содержат либо Predicted, либо Inferred from homology, значит, они лишь предсказаны или гомологичны известным белкам. Всего 7 белков принадлежат разделу Swiss-Prot, то есть проверены экспертом.
Таблица Excel со всеми полученными данными: загрузить.
Таким образом, моя архея не изучена на молекулярном уровне.


Valid HTML 4.01 Transitional