Выравнивание геномов

Задание 1.

Для работы в данном практикуме я выбрал "свою" бактерию Sulfurihydrogenibium azorense и родственную ей (из того же рода) Sulfurihydrogenibium subterraneum. Однако blastn отказался строить карту локального сходства, поскольку геном второй бактерии секвенировани не полностью (статус сборки - "Scaffold"). Тогда я взял другую бактерию из того же рода (и единственную, у кого, помимо "моей" бактерии, полностью секвенирован геном) - Sulfurihydrogenibium sp. YO3AOP1. Полученную карту локального сходства можно увидеть ниже.
 
Удручающая картина... Поэтому я решил взять две другие бактерии, скажем, из рода Brucella - Brucella sp. штамма F60 и Brucella abortus штамма BDW.

По оси абсцисс - поледовательность первой хромосомы Brucella abortus, по оси ординат - Brucella sp.
 
На этой карте локального сходства красными прямоугольниками я отметил инверсии, зелёными - вставки или делеции.
 
Геном Sulfurihydrogenibium azorense, геном Sulfurihydrogenibium subterraneum, геном Sulfurihydrogenibium sp. YO3AOP1, геном Brucella sp. штамма F60, геном Brucella abortus штамма BDW.
 

Задание 2.

Для выполнения данного задания я взял три штамма бактерии Helicobacter pylori: Helicobacter pylori strain 26695, Helicobacter pylori strain J99 и Helicobacter pylori strain 51. Цель данного задания - сравнить геномы близкородственных бактерий (в нашем случае - штаммов одного вида) и описать их сходства и различия с помощью построения нуклеотидного пангенома (NPG).
Вся работа производилась в директории npge.
NPG-explorer работает с файлами формата .tsv, в которых лежит информация, в какой базе данных и с каким файлом будет работать эксплорер. Создав такой файл genomes.tsv, я запустил команды npge Prepare и npge Examine - подготовил последовательности к работе. Затем командой npge -g npge.conf получил параметры программы в файле npge.conf, после чего изменил значение MIN_IDENTITY в нём на рекомендованное в файле examine/identity_recommended.txt.
Потом я запустил команды npge MakePangenome и npge CheckPangenome, в результате чего получил файл pangenome/pangenome.bs - файл с блоками.
Затем командой npge PostProcessing я получил множество разных файлов с информацией о пангеноме в целом и конкретных блоках.
 
Информацию о количестве g-блоков - синтеничных участков, - я взял в файле blocks.gbi. Всего g-блоков получилось 41. Информация же о последовательности блоков в каждом геноме есть в файле blocks.blocks.
Выравнивание блоков в трёх геномах в виде Excel-таблицы.
Совпадающих блоков во всех трёх геномах - 14.
Интересый случай: у штаммов 26695 и J99 блок g3x657 раправлен прямо, а у штамма 51 - обратно (инверсия). Такая картина вообще характерна для данного штамма: у него многие блоки раправлены в обратную сторону.

 
Информация о количестве s-блоков - коровых (стабильных) блоках, - хранится в файле pangenome.info. Количество s-блоков - 373, суммарная длина - 1369661 нуклеотидов (73,42% генома), процент консервативных позиций - 0.920691 (92,0691%).
 
Информация о повторах (r-блоки - повторы по крайней мере в одном геноме) хранится в файле pangenome/pangenome.bi ( таблица блоков, в том числе и r-блоков).

Фрагмент таблицы с r-блоками
Видно, что, скажем, r-блок r9x478 имеет 7 фрагментов и 441 позиция в выравнивании блока.
 
Информация об h-блоках - "полустадильных" блоках (по одному фрагменту лишь в части геномов), - можно найти всё в том же файле pangenome/pangenome.bi. Соответственно, если в каком-то геноме такого блока нет, а в других есть, то в этом геноме на этом месте - длинная делеция.

Фрагмент таблицы с h-блоками
 
u-блоки - уникальные последовательности из одного генома, у них нет гомологов среди всех геномов, кроме самой себя.

Фрагмент таблицы с u-блоками
Для аннотирования я выбрал самый крупный u-блок - u1x10805. В выдаче blastn видно, что последовательность этого блока встречается преимущественно у Helicobacter pylori разных штаммов, лишь в паре случаев этот блок встречается у другой бактерии этого же рода - Helicobacter cetorum. Исходя из этого, можно заключить, что данная последовательность скорее всего не является результатом горизонтального переноса из другого вида.

Фрагмент выдачи blastn по последовательности u-блока u1x10805
 
Довольно интересный пример несовпадения аннотаций: гены в одном и том же фрагменте одного и того же блока (s3x19027) у трёх разных штаммов Helicobacter pylori имеют разные названия: membrane fusion protein (mtrC), uroporphyrinogen decarboxylase и putative wfflux transporter. Видно даже по названиям, что это не разные наименования одного и того же гена, это именно названия разных генов, кодирующих совсем разные белки. Точнее, у штаммов 26695 и J99 это может быть один и тот же белок, тогда как уропорфириногенкарбоксилаза у штамма 51 сюда совсем не вписывается. Хотя имеются основания предполагать, что это ортологичные гены - они начинаются в одном и том же месте и имеют одинаковую длину.



 
 

Ссылка на главную страницу


© Головачев Ярослав