Предсказание генов прокариот

Меню

На главную

Третий семестр

В вирусе из первого семестра (Tomato leaf curl virus) было всего 6 белков, а в хромосоме бактерии(Thermus thermophilus HB8) 1908, поэтому я выбрала для аннотации ее плазмиду pTT27, в которой 251 белок в GenBank(NC_006462.1). C NSBI я скачала файл с расширением .ptt, в котором была таблица с аннотированными белками. (Ссылка на этот файл, преобразованный в Excel)
Таксономия:
cellular organisms; Bacteria; Terrabacteria group; Deinococcus-Thermus; Deinococci; Thermales; Thermaceae; Thermus; Thermus thermophilus
Таблица генов(В формате excel по ссылке) получена с помощью сервера RAST. На рисунке 1 представлены различия между аннотациями RAST и GenBank.

Рис. 1. Результат сравнения таблиц генов, полученных в RAST и GenBank.

Sugar transporter

С помощью blastp проверим белок-переносчик сахара, у которого не совпали старт-кодоны гена в аннотациях. (Рис.2.) В аннотации RAST два соседник переносчика сахара не пересекаются: заканчвается первый, и сразу начинается второй.

Рис.2. Фрагмент с белком-переносчиком сахара из таблицы сравнения аннотаций.

На рисунках 3 и 4 представлены результаты поиска последовательностей из GenBank(FASTA) и RAST(FASTA) с ограничением по таксону.

Рис.3. Выдача blastp для переносчика сахара у Thermus thermophilus HB8 из GenBank.


Рис.4. Выдача blastp для переносчика сахара у Thermus thermophilus HB8 из RAST.

В обоих случаях наиболее достоверная находка WP_011229245.1. В GenBank содержится вся последовательность из этой находки, поэтому она скорее всего ближе к реальному белку. Но домен, отвечающий за перенос сахара содержится в общем участке, т.е. он есть в обеих аннотациях этого белка.

Nicotinate-nucleotide--dimethylbenzimidazole phosphoribosyltransferase

У этого белка не совпал только старт-кодон. (По ссылке его нуклеотидная последовательность из RAST.) Длина в аннотациях различается только на 3 нуклеотида. (Рис.4.)

Рис.4. Фрагмент таблицы сравнения аннотаций.

В этот раз в RAST аннотация длиньше на GTG - второй по частоте встречаемости у прокариот старт-кодон. Blastp выдает для нее две находки, и выравниванивание для обеих начинается со второй аминокислоты, которая закодирована стандартным ATG.(Рис.5)

Рис.5. Выравнивание аминокислотной последовательности белка Nicotinate-nucleotide--dimethylbenzimidazole phosphoribosyltransferase из RAST c лучшей для него находкой в blastp.

Putative type IV pilin

В аннотации RAST этот белок длиньше на несколько нуклеотидов, чем в GenBank. Имя есть только в GenBank.

Рис.6. Фрагмент таблицы сравнения аннотаций с белком putative type IV pilin.

Для этого белка в blastp найденo 42 последовательности, и среди них 4 имеют нулевой e-value. Это достоверные находки: гомологи из разных штамов виды Thermus Thermophilus. RAST не зря распознал TTG, как старт-кодон. Нуклеотидная последовательность белка в (FASTA)
RAST оказался прав: в гомологичном белке тоже последовательность начинается с TTQ и длиньше соответсвующей последовательности из RefSeq. (Рис.7.)

Рис.7. Выравнивание последовательности, аннотированной RAST, с белком из плазмиды бактерии соседнего штамма.


© Корзина Анастасия, 2015