В данном задании исследовался геном и протеом коралла Acropora millepora.
С помощью текстового поиска в файле протеома была найдена последовательность δ-субъединицы АТФ-синтазы. В качестве запроса были заданы слова "subunit delta".
Далее белок был найден в NCBI Protein Database, откуда был взят идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_058079.1
Данная запись предаставляет собой 14 хромосому Acropora millepora, на которой был найден ген, кодирующий δ-субъединицу АТФ-синтазы: LOC14961338
Применение различных алгоритмов BLAST для фрагмента ДНК
Так как Acropora millepora не относится ни к первичноротым животным, ни ко вторичноротым животным, то для дальнейшего анализа было выбрано произвольное семейство Кошачих (Felidae).
Рис 2. При поиске с помощью blastn на вход подавался fasta-файл с последовательностью гена δ-субъединицы АТФ-синтазы. При этом megablast не использовался ввиду наличия большого расхождения псоледовательностей, из-за чего выдача была бы путой. В качестве базы данных для поиска была выбрана refseq_genomes. В параметрах алгоритма была указана минимальная длина слова 7. В результате было найдено 15 записей.
Рис 3. Поиск проводился по базе данных refseq_genomes. Была указана длина слова 5, так как достоверных находок оказалось достаточное количество. Была использована программа tblastn вместо tblastx, так как имеет меньшее время работы. Обнаружено 15 соответствий, что говорит о наличии в гене δ-субъединицы АТФ-синтазы консерватиных участков.
Поиск в геноме Acropora millepora генов основных рибосомальных РНК по далёкому гомологу
Для поиска гомологов последовательности генома Acropora millepora были проиндексированы с помощью локального BLAST:
В результате локального поиска с помощью алгоритма blastn для 16S рРНК было найдено 14 хитов, которые имели значение E-value меньше 0.01. Для 23S рРНК было найдено 33 хита. Все хиты были выровнены на прямой цепи.
Все хиты 23S рРНК обладали достаточно низким E-value. Можно заметить, что процент идентичности был тем меньше, чем короче было выравнивание.
Для визуализации локального поиск BLAST были построены схемы выравнивания 6 участков для гомолога NW_025322990.1, соответствующих участкам 23S рРНК.
Рис 4. Визуализация участка выравнивания 23S рРНК E.Coli на геном Acropora millepora.
Рис 5. Визуализация участка выравнивания 23S рРНК E.Coli на геном Acropora millepora.
Из рис 4. и рис. 5. видно, что одни и те же 3 участка 23S рРНК E.Coli выравнялись на 2 разных места на NW_025322990.1
Это говорит, что в геноме Acropora millepora нашлось 2 повтора генов 23S рРНК.
Построение карты локального сходства участков двух схожих геномов
Для построения карты локального сходства были выбраны хромосомные сборки из геномов бактерий Bacillus subtilis и Bacillus licheniformis. Построение осуществлялось с помощью алгоритмов megablast, blastn и tblastx.
Выбор организмов из одного рода был обусловлен необходимостью сильного сходства между сравниваемыми последовательностями.
Рис 6. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма megablast.
Рис 7. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма blastn.
Большая диагональ здесь не возрастает, а убывает. Это означает, что последовательность одной бактерии является обратно-комплементарной по отношению к другой, что может быть обуcловлено глобальной инверсией. Однако она скорее всего произошла из-за прочтения хромосом с разных концов и не имеет биологической причины.
Также на обоих картах заметно смещение начала главной диагонали. Это означает, что в начале хромосомы одного из штаммов присутствует точка разрыва.
При этом выдача tblastx содержит сообщение, что сходства между последовательностями не обнаружено.
Это может быть связано с самим принципом алгоритма, который сравнивает последовательности, используя очень малую длинну слова, так как сравнение происходит не нуклеотидных последовательностей, а их аминокислотных продуктов, полученных с помощью автоматической трансляции.