ФББ 2013-2014

Поиск в Uniprot

Uniprot обладает понятным языком поисковых запросов, из-за которого поиск становится лёгким и приятным. Благодаря этому я сразу нашла все белки-компоненты АТФ-синтазы, закодированные в геноме Chlorobium tepidum TLS. Поисковый запрос выглядел так:

taxonomy:"Chlorobium tepidum" AND name:atp-synthase

Результаты поиска показаны на рисунке 1. Колонки Protein existence и Organism ID были добавлены при помощи инструмента Customize Results.

Рис.1. Результаты поиска субъединиц АТФ-синтазы в геноме Chlorobium tepidum TLS с помощью базы данных Uniprot.

Из найденных белков 9 относятся к SwissProt/Uniprot, то есть они аннотированы и проверены экспертом. Ещё 3 - это автоматически определённые последовательности из TrEMBL. Почти для всех белков (10 из 12) вывод об их существовании делается на основе гомологии, для остальных (2 из 12) существование только предсказано (Predicted). Из этого стало понятно, что изучением АТФ-синтазы Chlorobium tepidum TLS не занимались, 3D структуры неизвестны ни для одной субъединицы.

Ещё из работ прошлого семестра и практикума №7 было очевидно, что гены АТФ-синтазы не находятся в едином опероне, а разделены на несколько. Самый большой из этих оперонов - с гена CT1029 до CT1033.

Увидеть последовательности всех субъединиц в формате fasta можно увидеть здесь

Затем я осуществила поиск генов субъединиц АТФ-синтазы у бактерии того же рода - Chlorobium ferrooxidans. Мой поисковый запрос выглядел аналогично предыдущему:

taxonomy:"Chlorobium ferrooxidans" AND name:atp-synthase

Результаты поиска представлены на рисунке 2. Всего найдено 7 субъединиц АТФ-синтазы. Очевидно, что гены так же, как у Chlorobium tepidum TLS не собраны в единый оперон, а разбиты на несколько независимых. Один оперон состоит из 4х генов - с CferDRAFT_0445 до CferDRAFT_0448, другой - из 2х генов - CferDRAFT_1527 и CferDRAFT_1528. Ни одна из субъединиц не аннотирована и не внесена в базу данных SwissProt. Это значит, что АТФаза у этого вида изучена ещё хуже, чем у Chlorobium tepidum. Возможно, это связано с тем, что геном секвенирован только наполовину.

Последовательности всех субъединиц в формате fasta находятся здесь.

Рис.2. Результаты поиска субъединиц АТФ-синтазы в геноме Chlorobium ferrooxidans с помощью базы данных Uniprot.

Теперь осуществим поиск гомологов субъединицы atpA в геномах других организмов. Я буду делать это с помощью выравнивания последовательности моего белка с последовательностями из других протеомов (BLAST в Uniprot). Параметры поиска: Threshold - 10, Matrix - Auto, Filtering - None, Gapped - yes, Hits - 250. Результаты выравнивания показали, что гомологов atpA довольно мало, все гомологи с хорошим процентом совпадения - из организмов, очень близких к Chlorobium tepidum TLS. Также можно отметить, что все гомологи с совпадением больше 80% ("зелёные полоски") найдены у зелёных серных бактерий (green sulfur bacteria). Возможно, это связано с особенностями жизни этих бактерий и то, что в таких жёстких условиях невозможно функционирование "обычных" АТФ-синтаз. Также этот факт может указывать на эволюционную обособленность группы зелёных серных бактерий. Наиболее подходящие результаты с совпадением более 80% показаны на рисунке 3.

Рис.3. Результаты BLAST с самым большим совпадением.

Но по условию задания в выборку гомологов надо включать белки из организмов, систематически далёких от исходного. Поэтому я отметила галочками результаты с совпадением не менее 70% и сделала отдельную таблицу с ними (рисунок 4).

Рис.4. Результаты BLAST c совпадением более 70% и при этом из разных таксонов (10 штук).

На рисунке 5 в виде дерева изображены отношения между выбранными белками.

Рис.5. Дерево, демонстрирующее филогенетические отношения между 10-ю выбранными белками.

Последовательности выбранных белков в формате fasta находятся здесь.

Поиск субъединиц АТФ-синтазы в базе данных Proteins на сайте NCBI

Поиск на сайте NCBI имеет свои особенности. Сначала я решила попробовать ввести простой запрос, не используя инструментов Advanced Search. Этот запрос: "atp-synthase Chlorobium tepidum TLS". Было найдено 35 результата, хотя ожидалось 12. Следовательно, получилось много лишних результатов. Попробуем разобраться, почему так вышло. Обратим внимание на то, что найденных результатов в ~3 раза больше, чем нужных нам. Если проанализировать их, то видно, что каждая субъединица в найдённых результатах повторяется 3 раза. Связано это с тем, что проектов по секвенированию генома Chlorobium tepidum TLS было 2 (первый проект и второй проект ). Для первого проекта белкам были присвоены идентификаторы вида "AA....."; для белков, расшифрованных во втором проекте - идентификаторы вида "NP_...".

Третий "вид" идентификаторов, которые нашлись по моему запросу имеют вид "Q8K...". Попробуем разобраться, откуда взялись эти результаты. Я думаю, под такими идентификаторами были найдены записи из базы данных Uniprot. Из этого можно сделать вывод, что база данных Proteins осущаествляет поиск по нескольким источникам, в том числе RefSeq и Uniprot.

Для того, чтобы получить результаты без повторов из разных мест, воспользуемся Advanced search. Я сформировала следующий запрос:

atp-synthase[All Fields] AND "Chlorobium tepidum TLS"[Organism] AND 302[BioProject]

По запросу было найдено 13 результатов. Их не 12, как ожидалось, потому что в результаты включён ещё hypotetical protein, который входит в АТФ-синтазный оперон, то есть скорее всего тоже является субъединицей АТФ. С помощью инструментов NCBI результаты поиска я оформила в виде файла, который можно посмотреть здесь.

Сводная таблица протеома Chlorobium tepidum

Для составления таблицы протеома бактерии я решила использовать поиск в Uniprot по organism id, мой запрос выглядел так: "taxonomy:194439". По этому запросу нашлось 2251 белков, составляющих протеом Chlorobium tepidum TLS, из них аннотированы и внесены в базу SwissProt 422 белка, а неаннотированы и внесены в TrEMBL 1829 белков. PDB структуры известны для 35 белков. Из этого можно сделать вывод, что данная бактерия изучена на среднем уровне.

Таблицу с полным протеомом Chlorobium tepidum TLS можно скачать здесь.