Выравнивание геномов

Поиск данных для выравнивания, результаты blast

Нужно было выберать три генома бактерий или архей одного вида. В базе данных Genome NCBI ищем бактерии, у котороых есть сборка генома до хромосомы. Хромосомы должны быть собраны полностью, набор контигов или скэффолдов не годятся. Я выбрала вид Paenibacillus polymyxa и 3 его штамма: SC2 (NC_014622.2), E681 (NC_014483.2), CR1 (NC_023037.2)

Paenibacillus polymyxa (лат.) — грамположительная спорообразующая палочковидная бактерия. Является продуцентом антибиотика полимиксина. Обитает в ризосфере растений и защищает растение от фитопатогенов

Таблица 1. Информация о выбранных штаммах

Organism/Name	Size (Mb)	ID
Paenibacillus polymyxa CR1	6,01988	NC_023037.2
Paenibacillus polymyxa E681	5,39488	NC_014483.2
Paenibacillus polymyxa SC2	5,57283	NC_014622.2

Программой blast2seq на NCBI были проведены 3 выравнивания геномов. Карты локального сходства приведены ниже.

Вычисление сходства (identity %) на гомологичных участках геномов

Далее вычисляю сходство всех 3 геномов.

Таблица 2. Информация о выравниваниях

Выравнивание	Cover, %	Identity (лучшего локального выравнивания)	Длина лучшего локального выравнивания
SC2 (NC_014622.2) и E681 (NC_014483.2)	80	94	54233
SC2 (NC_014622.2) и CR1 (NC_023037.2)	81	94	53953
E681 (NC_014483.2) и CR1 (NC_023037.2)	87	98	129538

Из таблицы прикидка: покрытие гомологичных участков около 80 %. Теперь будем работать с картами локального сходства и вычислим приблизительное покрытие гомологичных участков. Составлю таблицу с грубыми приближениями гомологичных участков (границы в килобазах).

Таблица 3. Гомологичные участки

Участок генома SC2, kb	1-200	300-1100	1200-2700	2900-3600	3700-5700
Гомологичность с E681	+	+	+	+	+
Гомологичность с CR1	-	+	+	+	+

Суммарная длина гомологичных участков - 5000 килобаз, это 83,1% от самого длинного генома (CR1). Очевидно, что приближение, очень грубое, теперь нужно его уточнить.
Терминология:
Ортологи - гомологи в разных организмах
Паралоги - гомологи в одном организме
Синтения – неологизм (John Renwick, 1971). Изобразим гены в геноме стрелочками. Ортологичные гены пометим одинаковым цветом или еще как-нибудь (одинаковым номером) Предположим, в геноме 1 и 2 найдутся одинаковые последовательности генов или комплементарные. Тогда соответствующие участки геномов называются синтеничными. Конечно, берутся максимальные такие последовательности.
Данные таблиц, полученных при выравниваниях, я занесла в данный файл Excel.

В практикуме 13 был использован пакет биоинформатических программ bedtools, тк предыдущие расчёты были примитивны, я хочу применить его для подсчёта покрытия.
В файлах выравниваний из blast были получены координаты участков, которые выровнялись. Я выбрала последоватльность штамма SC2 (NC_014622.2) как "референсную", с ней я буду работать. Создам 2 файла в фомате bed - 3 колонки, 2 последние - координаты выравниваний: начало и конец, не забывайте разделять колонки табулятором. В обоих файлах будут содержаться начало и конец выравниваний генома SC2.
Затем использую команду сортировки дважды для обоих файлов: bedtools sort -i S-C2.bed > S-C.bed
Я хочу найти пересечения выравниваний (опять же лучше сделать это дважды, поменяв местами файл а и б), команда: bedtools intersect -a S-C.bed -b S-E.bed -u > resultS-C-E.bed
Теперь я выберу пересечение, которое более удачно. У меня это resultS-E-C.bed - в нём меньше строк. Найду кластеры, но разрешу, чтобы между чтениями было 10 нуклеотидов, которые не вошли в пересечение: bedtools cluster -i resultS-C-E.bed -d 10 > resultS-C-E-clusters.bed
Получено около 700 кластеров. Перехожу в Excel. Результаты и логические функции, которые я использовала, вы можете увидеть в Excel-файле. Итог 71,95% - суммарное покрытие.

Исследуйте один или несколько типов крупных перестроек

В рассматриваемом мною примере на картах локального сходства можно увидеть делеции/вставки, а также дупликацию. Так, например, на рис. 1 видна делеция (или вставка) в штамме E681 а участке, соответствующем области примерно с 2,7 до 2,9 млн в штамме SC2. Для конкретных цифр использую сервер NCBI. В SC2 5,495 кодирующих генов, а в E681 4,515

Рис.4. Предполагаемая вставка/делеция

Рис.5. Предполагаемая дупликация

Красным контуром отмечено место предполагаемой дупликации, она небольшая, но всё равно интересная, тк также присутствует с выравнивании SC2 и CR1 (рисунок 2). При этом зона, в которой она находится, это зона предполагаемой делеции/вставки и находится почти на кооринатах разрыва сплошной линии выравнивания. Получается, что в SC2 есть участок, который повторяется трижды: который лежит на линии диагонального выравнивания и дважды в выделенном мною фрагменте. Из-за этого факта я все-таки считаю, что в самом большом гэпе в области 2,7 - 2,9 млн нуклеотидов в SC2 произошла не делеция, а вставка.

Анализ крупных перестроек геномов