В данном задании исследовался геном и протеом коралла Acropora millepora.
С помощью текстового поиска в файле протеома была найдена последовательность δ-субъединицы АТФ-синтазы. В качестве запроса были заданы слова "subunit delta".
Далее бклок был найден в NCBI Protein Database, откуда был взят идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_058079.1
Применение различных алгоритмов BLAST для фрагмента ДНК
Так как Acropora millepora не относится ни к первичноротым животным, ни ко вторичноротым животным, то для дальнейшего анализа было выбрано произвольное семейство Кошачих (Felidae).
Рис 2. При поиске с помощью blastn на вход подавался fasta-файл с последовательностью гена δ-субъединицы АТФ-синтазы. При этом megablast не использовался ввиду наличия большого расхождения псоледовательностей, из-за чего выдача была бы путой. В качестве базы данных для поиска была выбрана refseq_genomes. В параметрах алгоритма была указана минимальная длина слова 7. В результате было найдено 15 записей.
Рис 3. Поиск проводился по базе данных refseq_genomes. Была указана длина слова 5, так как достоверных находок оказалось достаточное количество. Была использована программа tblastn вместо tblastx, так как имеет меньшее время работы. Обнаружено 15 соответствий, что говорит о наличии в гене δ-субъединицы АТФ-синтазы консерватиных участков.
Поиск в геноме Acropora millepora генов основных рибосомальных РНК по далёкому гомологу
Для поиска гомологов последовательности генома Acropora millepora были проиндексированы с помощью локального BLAST:
В результате локального поиска с помощью алгоритма blastn для 16S рРНК было найдено 14 хитов, которые имели значение E-value меньше 0.01. Для 23S рРНК было найдено 33 хита.
Для визуализации локального поиск BLAST были построены схемы выравнивания 2 повторов для гомолога NW_025322990.1, соответствующих участку 1490-1536 на 16S рРНК.
Рис 4. Первый повтор.
Рис 5. Второй повтор.
Построение карты локального сходства участков двух схожих геномов
Для построения карты локального сходства были выбраны хромосомные сборки из геномов бактерий Bacillus subtilis и Bacillus licheniformis. Построение осуществлялось с помощью алгоритмов megablast, blastn и tblastx.
Выбор организмов из одного рода был обусловлен необходимостью сильного сходства между сравниваемыми последовательностями.
Рис 6. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма megablast.
Рис 7. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма blastn.
Большая диагональ здесь не возрастает, а убывает. Это означает, что последовательность одной бактерии является обратно-комплементарной по отношению к другой, что может быть обучловлено глобальной инверсией. Однако она скорее всего обуславливается прочтением хромосом с разных концов и не имеет биологической причины.
При этом выдача tblastx содержит сообщение, что сходства между последовательностями не обнаружено.
Это может быть связано с самим принципом алгоритма, который сравнивает последовательности, используя очень малую длинну слова, так как сравнение происходит не нуклеотидных последовательностей, а их аминокислотных продуктов, полученных с помощью автоматической трансляции.