1) Я выбрал контиг с идентификатором MH423687.1 и длиной 9425 п.н. организма Mus Musculus, так как у Abramis brama не было доступных файлов для скачивания. - мне пришлось поменять организм.
2)-3) На картинке ниже представлен контиг и содержащийся на нем единственный ген Jrkl, картированный с помощью megablast.
Ссылка на последоватльность контига в формате FASTA
Я решил исключить Хордовых животных из поиска.
При поиске с помощью megablast (длина слова 28), что неожиданно, была найдена одна находка - совпадение с простейшим Neospora canium (внутриклеточный паразит собак). Это неожиданно, т.к. megablast используется для поиска почти идентичных последовательностей близкородственных видов или, например, картирования известной последовательности на геном, но никак не для поиска гомологов среди неродственных видов. Cовпадение найдено вне гена Jrkl.
С помощью алгоритма blastn (длина слова 11) было найдено 344 находки, при этом очень многие совпадали по гену Jrkl, но также большое количество совпадало с регионом контига без аннотированных элементов. Алгоритм blastn можно применять как раз для поиска гомологичных последовательностей, которые не являются белок-кодирующими или не аннотированны, среди в том числе далеких видов.
Т.к. изначально с помощью алгоритма blastx при длине слова 6 было найдено более 5000 находок, пришлось поставить Expect threshold = 0.001. Однако это не помогло, даже самый большой E-value среди 5000 находок меньше или равен 2e-23, то есть это все хорошие находки. Подавляющее большинство находок связано с Jrkl геном, однако присутствуют также находки гипотетических белков и мобильных элементов. Алгоритм blastx самый разумный выбор для поиска например гомологов гена Jrkl.
Поиск с помощью tblastx не дал результатов из-за недостатка вычислительной мощности. Применять этот алгоритм разумно для поиска таких гомологов, которые не были аннотированы как гены белков.
Таким образом, blastn и megablast стоит использовать. При этом megablast работает намного быстрее, но пропускает большинство потенциальных находок в случае их низкой степени схожести с последовательностями банка данных. Использование этого метода имеет смысл при работе с последовательностями близкородственных организмов или с сильно консервативными последовательностями (например, рРНК). blastx работает дольше blastn, но позволяет использовать в качестве запроса последовательности, содержащие много длинных участков. В частности, в данном случае (поиск гомологов гена эукариотического организма) этот метод оказался наиболее оптимальным.
Геном Mus musculus был проиндексирован на моем компьютере для работы локального BLAST с помощью следующей команды:
makeblastdb -in mus.fna -dbtype nucl -blastdb_version 4
Затем файл с последовательностями рРНК Escherichia coli был разделен на файлы 16S.fasta и 23S.fasta и поиск по созданной при индексации генома эукариота базе данных был проведен с помощью следующих команд:
blastn -task blastn -query 16S.fasta -db mus.fna -evalue 0.05
blastn -task blastn -query 23S.fasta -db mus.fna -evalue 0.05
Пояснение: blastn был выбран, т.к. нам нужно искать ген рРНК, то есть ген, который не транслируется - искать по белковой базе данных мы не можем. Использовать megablast нерационально, несмотря на консервативность рРНК, т.к. организмы слишком далеки. Значение e-value было поставлено согласно значению по умолчанию для web-версии blast - 0.05.
16S рРНК играет важнейшую роль при инициации трансляции (например, именно она содержит последовательность анти-Шайна-Дальгарно), а также в качестве каркаса малой субъединицы. При поиске по гену 16S была найдена одна находка - на 17 хромосоме, положение 40159047-40159089, что соответствует гену Rn18s-rs5 (по данным Genome Data Viewer). C этого гена экспрессируется 18S рРНК, которая является гомологом 16S рРНК прокариот и входит в состав малой субъединицы.
23S рРНК играет важную роль при инициации трансляции, в качестве каркаса большой субъединицы, а также в пептидилтрансферазной реакции. 23S рРНК входит в состав большой субъединицы рибосомы прокариот. Было найдено 13 находок. При этом найдены гомологи как в ядерной ДНК (соответствующие, например, 28S рРНК эукариот), так и гомлоги в митохондриальной ДНК (которая содержит прокариотические рибосомамы)