Нуклеотидный blast

Таксономия и функция прочитанной нуклеотидной последовательности

Последовательность, прочтённую в практикуме 6, можно скачать тут.

Чтобы определить, к какому таксону относится прочтённая последовательность и какую функцию она выполняет, я запустила выравнивание в blastn, используя алгоритм Somewhat similar sequences и прочие настройки - по умолчанию. Поиск проводился по базе данных Nucleotide NCBI. Вот что нашёл blastn:

Прямоугольником выделены лучшие находки (по e-value, весу и покрытию). Flabellina и Moridilla brockii - голожаберные брюхоногие моллюски, которые относятся к общей кладе Aeolididina, поэтому таксономическое положение находки - брюхоногие моллюски клады Aeolididina.

Голожаберный брюхоногий моллюск рода Flabellina

Как можно убедиться по названиям последовательностей в выдаче blastn, прочитанная последовательность кодирует субъединицу 1 митохондриального белка цитохром c-оксидазы, который входит в состав электроно-транспортной цепи митохондрий.

Ниже представлено таксономическое положение родов Flabellina и Moridilla. Выбирался самый младший общий таксон.

Сравнение списков находок нуклеотидной последовательности 3-я разными алгоритмами blast

Поиск проводился по роду Flabellina, так как именно к нему относится большая часть находок. Использовалась база данных Nucleotide, все остальные настройки были взяты по умолчанию. Результаты поиска представлены в таблице ниже.

АлгоритмКоличество находокE-value лучшей находкиE-value худшей находкиПроцент сходства для худшей находки
Somewhat similar
sequences (blastn)
650,01,4
4e-128
100 % (очень короткий ген рРНК)
81 %
Discontiguous blast640,01e-13981 %
Megablast363e-1657e-12782%

Самый точный из представленных алгоритмов - megablast. Он выдал находок меньше, чем два других алгоритма, но эти находки были с лучшими параметрами. Discontiguous megablast выдал большее число находок, однако их можно считать достоверными, так как они относятся к тому же гену, что и заданная последовательность. Blastn дополнительно нашёл последовательность гена рРНК, очень короткую (покрытие 2 %) и с худшим E-value, то есть этот алгоритм может выдавать очевидно недостоверные находки. Таким образом, blastn может выдавать последовательности любой длины, покрытие для него не имеет значения; discontiguous megablast ищет сходные последовательности, потенциально являющимися гомологами, а megablast подходит для поиска очень близких гомологов, так как использует не только E-value, но и процент сходства.

Конец выдачи blastn. Последняя, очевидно недостоверная находка выделена прямоугольником.

Проверка наличия гомологов трех белков в геноме одного организма

Для выполнения этого задания я выбрала следующие три белка, которые, по идее, должны быть у всех эукариот:

Название
(идентификатор UniProt)
Краткое описание
H4_HUMANОдин из пяти эукариотических гистонов - белков, связывающих в клетке двойную спираль ДНК. Гистоны имеются почти у всех эукариот (кроме динофлагеллят) и высококонсервативны.
CISY_HUMANЦитратсинтаза - один из ферментов цикла Кребса, который есть у большинства аэробных эукариот (в том числе должен быть и у Amoeboaphelidium).
PABP2_HUMANБелок, связывающий 3'-концевой поли(А)-хвост эукариотической мРНК. У эукариот процессинг мРНК обязательно включает этап добавления поли(А)-хвоста, который регулирует стабильность транскрипта.

Последовательности всех белков я для удобства собрала в один fasta-файл. Сначала я создала банк данных из последовательности генома организма Amoeboaphelidium. Для этого была использована команда makeblastdb -in X5.fasta -dbtype nucl. Далее требовалось проверить наличие гомологов в геноме данного организма. Задачу можно сформулировать так: требуется провести локальный blast аминокислотной последовательности каждого из белков против трансляции нуклеотидного банка данных (последовательности генома Amoboaphelidium). Этой задаче соответствует алгоритм tblastn, и он запускается командой: tblastn -query proteins.fasta -db X5.fasta -out proteins.out -outfmt 7.

Для каждого белка нашлось ненулевое (что важно!) количество находок разного качества (хорошая - значит с e-value < 0,001). Итоги работы находятся в файле и представлены в таблице ниже:

UniProt
идентификатор
Количество хороших находок/
Общее число находок
Лучшая находкаE-value лучшей находкиПроцент идентичности
лучшей находки
H4_HUMAN7/9unplaced-3681e-4893,9
CISY_HUMAN6/6scaffold-6932e-18069,5
PABP2_HUMAN11/28scaffold-1002e-2862,79

Найти один ген белка, закодированный в одном контиге Amoeboaphelidium

При выполнении этого задания я прежде всего получила данные о длинах контигов с помощью команды infoseq X5.fasta -only -name -length. Я выбрала контиг с именем unplaced-665 (его длина была около 20 тысяч п. о., то есть ген вполне может там уместиться). Далее с помощью команды seqret X5.fasta:unplaced-665 -out u665.fasta

я получила последовательность этого контига (файл). После этого я запустила blastn с настойками по умолчанию для этой последовательности. Вот что у меня получилось (показаны лучшие находки):

Как можно видеть, все лучшие находки, для которых показано, какой белок они кодируют, кодируют составные части белка тубулина. Покрытие для лучших находок всего 6 %, так что исследуемый контиг содержит ген субъединицы тубулина.


© Елизавета Минина 2015