Алгоритмы поиска BLAST

1. Ген, кодирующий дельта-субъединицу АТФ-синтазы

С помощью текстового поиска в файле с последовательностями белков афалины был произведен поиск белка, аннотированного как δ-субъединица АТФ-синтазы. Результатом поиска является данный файл с белковой последовательностью: delta_sub.fasta. Идентификатор данного белка: XP_033710840. В файле последовательностей генома с аннотацией был найден идентификатор нуклеотидной записи: NC_047036.1. Оттуда же был получен файл с нуклеотидной последовательностью, содержащую ген дельта-субъединицы: gen_delta.fasta. Ниже приведено изображение окрестности из геномного браузера, содержащей последовательность дельта-субъединицы АТФ-снтазы.(рис. 1).
photo

Рисунок 1.Иллюстрация фрагмента, содержащего ген дельта-субъединицы АТФ-синтазы. Весь исследуемй ген изображен в 3 цветах: зеленым (интроны и экзоны, серым - некодирующие фрагменты), фиолетовым (весь ген) и красным (только интроны и экзоны). Тонкими линиями изображены интроны.

2. Алгоритмы поиска BLAST для фрагмента ДНК

Для анализа консервативности гена, кодирующего дельта-субъединицу АТФ-синтазы, был выбран такой таксон, который был бы приемлемо далек от выбранного ранее организма. Поэтому выбор пал на таксон Пчелы (apoidea) из первичноротых, так как ранее мною был взят вторичноротый эукариот афалина. Далее был произведен поиск BLAST через сайт NCBI по последовательностях геномов из выбранного таксона для последовательности гена δ-субъединицы АТФ-синтазы. В качестве базы данных для поиска была выбрана refseq_genomes. Поиск был проведен двумя методами: blastn (параметры expect threshold 5, word size 7; 29 сборок) и tblastn (параметры expect threshold 5, word size 3; 29 сборок). В первом поиске для обоих алгоритмов использовались примерно одинаковые параметры (минимально возможные для каждого), чтоб сравнить выдачу как результат поиска, используя непосредственно эти два алгоритма. В первом случае сравнивались нуклеотидные последовательности гена, а во втором - белковая последовательность сравнивается с продуктами трансляции с генов организмов из базы данных. Для blastn было обнаружено 2 находки, а для tbastn - 29. Далее я решила поменять параметры для blastn ( expect threshold 10, word size 11 ), в результате чего было получено большее число находок, а именно 7. В этом случае наблюдается миимальный процент покрытия, который в сочетании с высокими параметрами, перечисленными ранее, дает меньший шанс обнаружить уникальную находку. Результаты поиска можно также увидеть в данных файлах: blastn1.txt, blastn2.txt и tblastn.txt.

3. Поиск генов основных рибосомальных РНК по далекому гомологу

Для индексации последовательности генома была использована следубщая команда:

makeblastdb -in GCF*fna -dbtype nucl,

где GCF*fna - файл с нуклеотидной последовательностью генома. Далее был проведен локальный поиск BLAST по двум видам рРНК: 16s (файл с последовательностью: 16s.txt) и 23s (23s.txt). Использованные команды:

для 16s: blastn -task blastn -query 16s.txt -db GCF*fna -out 16s_result.txt -outfmt 7

для 23s: blastn -task blastn -query 23s.txt -db GCF*fna -out 23s_result.txt -outfmt 7

16s рРНК выступает в роли идентификатора прокариот, то есть, является характерной именно для них. Помимо этого, данная рРНК связывается с последовательностью Шайна-Дальгарно мРНК, стабилицирует правильное расположение кодона и антикодона, а также способствует связыванию малой и большой рибосомальных субъединиц путем взаимодействия с 23s рРНК.

Результаты локального поиска для каждой рРНК: 16s_result.txt и 23s_result.txt. Для 23s рРНК был найден 1 гомолог (как гомолог был помечен еще один фрагмент, но он представляет сбой L-rRNA, охарактеризованный, как 16s, то есть гомологом не является). Для 16s рРНК было найдено 3 гомолога, один из них аннотирован, как 12s рРНК.