Для выполнения заданий данного практикума мною были выбраны 3 штамма бактерии
Wolbachia pipientis:
Wolbachia pipientis — вид грамотрицательных альфа-протеобактерий, являющихся облигатными внутриклеточными симбионтами (или паразитами) членистоногих и нематод. Основная стратегия существования
Wolbachia pipientis — заражение репродуктивных органов. При этом могут возникать следующие интересные процессы: дегенерация эмбрионов мужского пола, партеногенез, феминизация хозяина.[
1]
В яйце мелкой паразитической осы Trichogramma kaykai ярко окрашиваются вольбахии. Photo Credit: Merijn Salverda and Richard Stouthamer
Для начала был создан файл
genomes.tsv, содержащий всю нужную информацию о штаммах для запуска NPG-explorer, а именно: база данных, AC, хромосома, тип ДНК и полное название штамма.
Далее последовательно были выполнены следующие команды:
npge -g npge.conf
npge Prepare
npge Examine
npge MakePangenome &> log_make
npge PostProcessing &> log_post
qnpge
Stdout&stderr:
log_make,
log_post
Отдельно стоит отметить, что в файл npge.conf были внесены следующие изменения: WORKERS = 1, MIN_IDENTITY = Decimal('0.823'). Второй параметр взят из файла
identity_recommended.txt.
Основные выходные файлы:
Описание стабильного ядра нуклеотидного пангенома
Основную статистическую информацию о пангеноме можно получить из файла
pangenome.info. В том числе и информацию о стабильном ядре (s-блоках) полученного пангенома. Ниже приведены некоторые сведения об s-блоках:
- Число блоков (s-blocks): 711 (2056577 bp)
- Размер нуклеотидного ядра (процент нуклеотидов в ядре от общего числа всех нуклеотидов): 47.01%
- Процент консервативных колонок в объединённом выравнивании s-блоков: 87.9384%
Описание крупных делеций в каждом геноме
Файл
pangenome.bi был проанализирован с помощью R. Были отобраны только строчки с h-блоками и затем расположены в порядке убывания длины блока. Далее было рассмотрено, в каком штамме отсутствует тот или иной блок, и выбрана самая большая делеция в каждом из штаммов. Результаты представлены в таблице ниже.
Штамм |
Название блока |
Длина делеции |
Делетированные гены |
wlrr |
h2x4168 |
4168 |
Генов найдено не было |
wCin2USA1 |
h2x690 |
690 |
tRNA dihydrouridine synthase DusB
hypothetical protein
|
wAlbB-Q |
h2x3640 |
3640 |
ankyrin repeat domain-containing protein (два)
hypothetical protein
|
Таблица 1.
Описание перестановки синтений (g-блоков)
Рисунок 1.
Как можно видеть, у штамма wAlbB-Q произошло перемещение синтеничного блока (g3x1774, позиция 577 ), так как этот блок находится на одном месте у остальных штаммов (позиция 937).
Примеры ошибок аннотации гена
Рисунок 2.
Рисунок 3.
Пример 1 (рисунок 2, блок s3x107n3): первым в геномах штаммов wCin2USA1 и wCin2USA1 указан ген, кодирующий AAA family ATPase, но у штамма wIrr практически полностью идентичный ген кодирует, судя по аннотации, hypothetical protein.
Пример 2 (рисунок 3, блок s3x1198): в данном случае ген аннотирован у всех трёх штаммов, но у wAlbB-Q и wCin2USA1, судя по аннотации, кодируется tRNA-Ile, а у wIrr tRNA-Met. Возможно, стоит доверять тому варианту, который встречается у большего количества штаммов, но для более достоверного вывода следует рассмотреть выборку больше.