Нуклеотидный BLASTОпределение таксономии и функции прочтенной последовательностиНа странице Чтение последовательностей по Сэнгеру была проделанна работа с сырыми даннами секвенирования. В результате получилась неплохая нуклеотидная последовательность, однако все равно не понятно к какому организму она принадлежит, и какую функцию она несет (если вообще несет).
Для начала я прогнал по BLASTn (при чем по megablast) первую последовательность (да, я все еще буду называть их 1 и 2. Мне так удобнее). Результат: Первая последовательность в поиске (нажми на меня)Glycera capitata isolate A histone H3 (H3) gene, partial cds Sequence ID: KP113589.1 Length: 314 Score Expect Identities Gaps Strand 575 bits(311) 2e-160 312/313(99%) 0/313(0%) Plus/Plus Query 18 AGGCCCCCCGAAAGCAGCTCGCCACCAAGGCTGCCCGCAAGAGCGCACCAGCCACCGGCG 77 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 2 AGGCCCCCCGAAAGCAGCTCGCCACCAAGGCTGCCCGCAAGAGCGCACCAGCCACCGGCG 61 Query 78 GAGTGAAGAAACCCCATCGTTACAGGCCCGGAACAGTCGCTCTCCGTGAGATCCGTCGTT 137 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 62 GAGTGAAGAAACCCCATCGTTACAGGCCCGGAACAGTCGCTCTCCGTGAGATCCGTCGTT 121 Query 138 ACCAGAAGAGCACCGAGCTTCTCATCCGCAAGCTGCCCTTCCAGCGTCTGGTCCGTGAGA 197 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 122 ACCAGAAGAGCACCGAGCTTCTCATCCGCAAGCTGCCCTTCCAGCGTCTGGTCCGTGAGA 181 Query 198 TCGCCCAGGACTTCAAGACTGATCTCCGCTTCCAGAGCTCTGCNGTCATGGCCCTTCAGG 257 ||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||| Sbjct 182 TCGCCCAGGACTTCAAGACTGATCTCCGCTTCCAGAGCTCTGCTGTCATGGCCCTTCAGG 241 Query 258 AGGCTAGCGAGGCTTACCTGGTCGGACTCTTCGAGGACACCAACCTGTGCGCCATCCACG 317 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 242 AGGCTAGCGAGGCTTACCTGGTCGGACTCTTCGAGGACACCAACCTGTGCGCCATCCACG 301 Query 318 CCAAGCGTGTCAC 330 ||||||||||||| Sbjct 302 CCAAGCGTGTCAC 314 Вторая последовательность в поискеGlycera capitata isolate B histone H3 (H3) gene, partial cds Sequence ID: KP113590.1 Length: 311 Score Expect Identities Gaps Strand 571 bits(309) 3e-159 310/311(99%) 0/311(0%) Plus/Plus Query 20 GCCCCCCGAAAGCAGCTCGCCACCAAGGCTGCCCGCAAGAGCGCACCAGCCACCGGCGGA 79 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1 GCCCCCCGAAAGCAGCTCGCCACCAAGGCTGCCCGCAAGAGCGCACCAGCCACCGGCGGA 60 Query 80 GTGAAGAAACCCCATCGTTACAGGCCCGGAACAGTCGCTCTCCGTGAGATCCGTCGTTAC 139 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 61 GTGAAGAAACCCCATCGTTACAGGCCCGGAACAGTCGCTCTCCGTGAGATCCGTCGTTAC 120 Query 140 CAGAAGAGCACCGAGCTTCTCATCCGCAAGCTGCCCTTCCAGCGTCTGGTCCGTGAGATC 199 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 121 CAGAAGAGCACCGAGCTTCTCATCCGCAAGCTGCCCTTCCAGCGTCTGGTCCGTGAGATC 180 Query 200 GCCCAGGACTTCAAGACTGATCTCCGCTTCCAGAGCTCTGCNGTCATGGCCCTTCAGGAG 259 ||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||| Sbjct 181 GCCCAGGACTTCAAGACTGATCTCCGCTTCCAGAGCTCTGCTGTCATGGCCCTTCAGGAG 240 Query 260 GCTAGCGAGGCTTACCTGGTCGGACTCTTCGAGGACACCAACCTGTGCGCCATCCACGCC 319 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 241 GCTAGCGAGGCTTACCTGGTCGGACTCTTCGAGGACACCAACCTGTGCGCCATCCACGCC 300 Query 320 AAGCGTGTCAC 330 ||||||||||| Sbjct 301 AAGCGTGTCAC 311 Из этого можно сделать вывод, что днк была выделенна из Glycera capitata, изолированный гистон, при чем скорее всего B. Вообще белки отличаются только на глутамин, но так как в моей последовательности вместо первого триплета cag находится aag, то это либо мутация, либо B. Я склоняюсь ко второму. При поиске по второй хромотограмме megablast перешол на комплементарную цепь, так что результат остается тем же. Сравнение трех алгоритмов BLASTnВ BLAST сравнивающем нуклеотиды есть три алгоритма:megablast, discontiguous megablast и blastn. Так чем же они фактически отличаются?
В описании написанно, что они предложенны в порядке убывания скорости и возрастания качества. Чтобы проверить, я запустил три одинаковых запроса, меняя только алгоритм поиска. Вот
Я довольно долго размышлял, какие параметры лучше выбрать для сравнения, и вот к чему я пришел: Таблица сравнения:
Так же я придумал еще один критерий (по-мне так самый показательный), однако я считаю, что лучше его поместить его в отдельную таблицу. Я скачал полные найденные последовательности, после чего прогнал их через два питоновских скрипта. Если нужно, вот архив. Результат: у всех общие только 19 находок. Таблица для парных значений:
Проверка на наличие гомологовC kodomdo я взял файл X5.fasta. Далее с помощью tblastn (поиск по белку в нуклеотидой базе данных) были найденны предположительные гомологи для трех белков (вот последовательности этих белков) Heat shock cognate 71 kDa protein (P11142.1) ![]() К гомологам я бы отнес первые четыре находки: скэффолды 199,423,96 и unplaced-999. Citrate synthase (O75390.2) ![]() Первые две: скэффолды 693 и 157. DNA-directed RNA polymerase II subunit RPB1 (P24928.2) ![]() Так же первые две: скэффолды 300 и 157. Поиск белок-кодирующего генаЗадача: для одного скеффолда X5 найти белок-кодирующий ген, который он несет. Я взял scaffold-89, и провел его по blastx(нуклеотид-белок). Результат - скорее всего, в нем есть ген, кодирующий белок CLN3. ![]() Использовавшиеся команды: infoseq X5.fasta -only -name -length seqret X5.fasta:scaffold-89 -out scaffold.fasta
|