Практикум 10. Выравнивание геномов

Информация о геномах

Для выравнивания я взяла два вида бактерий из рода Escherichia: E. albertii и E. coli. Они относятся к гаммапротеобактериям. Этот род был выбран из соображений изученности: E. coli - модельный организм и имеет аннотированный геном, а E. albertii имеет аннотированную хромосому. Оба генома являются референсными.

Поиск последовательностей велся через NCBI -> Browse by Organism по роду Escherichia. Всего было 7 находок, из которых 4 имели хромосомы с аннотированными генами. Для E. albertii ASM1690475v2 известна последовательность хромосомы NZ_CP070290.1 (RefSeq). У E. coli референсный геном имеют два штамма: Escherichia coli str. K-12 substr. MG1655 и Escherichia coli O157:H7 str. Sakai. Я выбрала штамм K-12 substr. MG1655, так как у него последовательность известной хромосомы имеет похожий размер (Mb): у E. albertii NZ_CP070290.1 имеет вес 4.54, у E. coli NC_000913.3 - 4.64.

Интересно, что на первой хромосоме есть следующие последовательности: последовательность, кодирующая белок (4,149), кодирующая рРНК (22) и кодирующая тРНК (87). При этом на второй последовательности имеют следующее распределение: белковая (4,298), рРНК (22) и тРНК (86).

Выравнивания

Выравнивание с помощью BLASTN проводилось с двумя разными значениями длины слова: 7 и 15. Первым был получен график с наименьшей длиной слова (Рис. 1). На нем видны значительные "помехи" - вертикальные серии точек, которые заметно выбиваются из основного графика. Затем для сравнения я запустила тот же алгоритм с максимальной для BLASTN длиной слова (Рис. 2), так как это должно было убрать маленькие участки сходства.

Рис. 1 Выравнивание BLASTN с длиной слова 7
Рис. 2 Выравнивание BLASTN с длиной слова 15

Некоторое улучшение заметно, но значительных изменений не произошло.

Сравним полученные графики с результатами выравнивания MEGABLAST. Так как в прошлом выравнивании была взята длина слова 15, брать стандартное значение длины слова 16 в MEGABLAST я не стала. Вместо этого я выбрала среднюю длину - 32.

Рис. 3 Выравнивание MEGABLAST с длиной слова 32
Рис. 4 Выравнивание MEGABLAST с длиной слова 256

График очевидно меняется - "шумы" из коротких участков совпадений становятся сильно меньше. Можно предположить, что эти участки имели длину в промежутке от 15 до 30 н.п. Чтобы оставить только самые консервативные участки, был построен еще один график с максимально возможной длиной слова - 256 (Рис. 4). Ожидаемо, остались преимущественно участки на одной прямой. При этом исчезли и значительные отрезки на самой прямой, из чего можно сделать вывод, что в выравнивании средняя длина участка сходства меньше 256 п.н.

Рассмотрим отдельно основную прямую. Она соответствует общему виду графика y=-ax+b, а значит последовательности лежат на разных цепях ДНК. Также в правом верхнем углу мы видим выбивающийся отрезок, который свидетельствует о разных точках начала считывания.

На участках 1,450К, 1,600К, 2,900K и 3,500К можно заметить пробелы - следы вставок или делеций.

Рис. 5 Выравнивание MEGABLAST с длиной слова 32. Красным выделен участок сдвига начальной точки; синим выделены участки самых заметных вставок/делеций