Было выбрано три штамма Arthrospira platensis: C1 (NZ_CM001632.1), YZ (NZ_CP013008.1) и NIES-39 (NC_016640.1). Каждый штамм имел по хромосоме. В скобках приведены идентификаторы RefSeq. Входной файл genomes.tsv доступен по ссылке.
Examine составил рекомендацию для параметра MIN_IDENTITY, согласно которой он был изменен на 0.853. Остальные параметры были оставлены по умолчанию. Конфигурационный файл доступен по ссылке.
Стабильных блоков оказалось 1537. Нуклеотды в стабильных блоках составляли 67.06% от всех нуклеотидов во входных геномах. Процент стабильных блоков среди всех колонок выравнивания составил 66.67. Процент идентичных колонок в объединенном выравнивании s-блоков составил 94.2075.
Для поиска крупных делеций был использован прикрепленный выше файл pangenomes.bi, который был проанализирован с помощью LibreOffice Calc. Для рассмотрения был выбран блок h2x7622 внутри g3x42727, в котором содержится 12 генов. Этот блок присутствовует только у штаммов YZ и NIES-39.
Среди прочих генов, содержащихся в данном участке, интерес вызвал ген Cmr6 family CRISPR-associated RAMP protein (NIES39_M01200), шестая субъединица CMR-комплекса, узнающего и разрезающего целевую РНК по сайту UA. Данный ген занимал позиции 5197622-5195760 у штамма NIES-39.
Ошибка была найдена в блоке s3x5585 из глобального блока g3x106162. У штамма YZ с позиции с позиции 1319 блока (2873455-2874456) начинается ген LD-карбоксипептидазы. У NIES-39 этот ген был также аннотирован, а последовательность его была полностью идентичная. Однако он был обозначен как hypotethical protein. У C1 на этом месте была неаннотированная последовательность, которая, тем не менее, очень хорошо выравнивалась на последовательность гена.