Выравнивание геномов

Для выполнения заданий данного практикума мною были выбраны 3 штамма бактерии Wolbachia pipientis: Wolbachia pipientis — вид грамотрицательных альфа-протеобактерий, являющихся облигатными внутриклеточными симбионтами (или паразитами) членистоногих и нематод. Основная стратегия существования Wolbachia pipientis — заражение репродуктивных органов. При этом могут возникать следующие интересные процессы: дегенерация эмбрионов мужского пола, партеногенез, феминизация хозяина.[1]
wolbachia
В яйце мелкой паразитической осы Trichogramma kaykai ярко окрашиваются вольбахии. Photo Credit: Merijn Salverda and Richard Stouthamer

Для начала был создан файл genomes.tsv, содержащий всю нужную информацию о штаммах для запуска NPG-explorer, а именно: база данных, AC, хромосома, тип ДНК и полное название штамма.

Далее последовательно были выполнены следующие команды:
  npge -g npge.conf
  npge Prepare
  npge Examine
  npge MakePangenome &> log_make
  npge PostProcessing &> log_post
  qnpge
 
Stdout&stderr: log_make, log_post

Отдельно стоит отметить, что в файл npge.conf были внесены следующие изменения: WORKERS = 1, MIN_IDENTITY = Decimal('0.823'). Второй параметр взят из файла identity_recommended.txt.

Основные выходные файлы:
Описание стабильного ядра нуклеотидного пангенома
Основную статистическую информацию о пангеноме можно получить из файла pangenome.info. В том числе и информацию о стабильном ядре (s-блоках) полученного пангенома. Ниже приведены некоторые сведения об s-блоках:
Описание крупных делеций в каждом геноме

Файл pangenome.bi был проанализирован с помощью R. Были отобраны только строчки с h-блоками и затем расположены в порядке убывания длины блока. Далее было рассмотрено, в каком штамме отсутствует тот или иной блок, и выбрана самая большая делеция в каждом из штаммов. Результаты представлены в таблице ниже.

Штамм Название блока Длина делеции Делетированные гены
wlrr h2x4168 4168 Генов найдено не было
wCin2USA1 h2x690 690

tRNA dihydrouridine synthase DusB

hypothetical protein

wAlbB-Q h2x3640 3640

ankyrin repeat domain-containing protein (два)

hypothetical protein

Таблица 1.
Описание перестановки синтений (g-блоков)

wolbachia wolbachia
Рисунок 1.
Как можно видеть, у штамма wAlbB-Q произошло перемещение синтеничного блока (g3x1774, позиция 577 ), так как этот блок находится на одном месте у остальных штаммов (позиция 937).

Примеры ошибок аннотации гена

wolbachia
Рисунок 2.
wolbachia
Рисунок 3.

Пример 1 (рисунок 2, блок s3x107n3): первым в геномах штаммов wCin2USA1 и wCin2USA1 указан ген, кодирующий AAA family ATPase, но у штамма wIrr практически полностью идентичный ген кодирует, судя по аннотации, hypothetical protein.

Пример 2 (рисунок 3, блок s3x1198): в данном случае ген аннотирован у всех трёх штаммов, но у wAlbB-Q и wCin2USA1, судя по аннотации, кодируется tRNA-Ile, а у wIrr tRNA-Met. Возможно, стоит доверять тому варианту, который встречается у большего количества штаммов, но для более достоверного вывода следует рассмотреть выборку больше.