Нуклеотидный BLAST

1. Таксономия и функции последовательности из №6

Являются частью 4 предыдущего задания.

2. Сравнение трёх алгоритмов поиска BLAST

Параметры поиска выбраны, исходя из задания (хотя требование "совпадают по всем остальным параметрам" нельзя выполнить в силу того, что возможный размер слова - Word size - у megablast и двух остальных алгоритмов не совпадает):

  • Max target sequences = 1000
  • Ajust for short queries = yes
  • Expect threshold = 10
  • Word size = 28 (megablast) / 11 (other)
  • Max matches = 0
  • Match/mismatch score = 2,-3
  • Gap Costs = exist:5 extent:2
  • Filter: low complexity regions
  • Mask: for loopup table only
Поиск BLASTn по роду "Brada" (Taxonomy ID: 307617) выдаёт всего три результата. Расширяем область поиска до семейства Flabelligeridae (Taxonomy ID: 279648) и опять не попадаем в желанную 10-ку: 9 результатов в выдаче. Поднимаемся до порядка Flabelligerida - результат не меняется. Ограничение вышестоящим таксоном - инфраклассом Canalipalpata(Taxonomy ID: 105391) - уже радует нас 43-мя результатами в выдаче по алгоритму megablast:

110-ю результатами выдачи по алгоритму discontiguous megablast:

и 125-ю результатами выдачи по алгоритму blastn:

Различия в выдаче искались методом сопоставления подсвеченных CTRL+F находок на страничке каждого алгоритма. К примеру, поиск по роду "Novafabricia" выясветил 5 находок в выдаче blastn и discontiguous megablast и только 4 - в выдаче megablast.

Разная длина слова привела к различающейся оценке качества выравнивания, поэтому в выдачу megablast не попал ген организма Novafabricia sp.

Также в выдачу blastn попал ген субъединицы B2 гемоглобина организма lamellibrachia sp.1, (это можно видеть на картинке с его выдачей). Причём со 100%-ной идентичностью запросу, который по пункту 4 в №7 кодирует гистон H3 в организме многощетинкового червя Brada %^) Вероятно, виноваты:

  • неучтённое и слишком при том большое e-value, своим значением обязанное весьма скромному покрытию, взятому алгоритмом для анализа;
  • маленькая длина слова.
Таблица результатов работы алгоритмов BLAST:
Алгоритм Число результатов в выдаче: e-value (min/max) ident (max/min)
blastn 125 7e-179 / 9.8 100% / 75%
discontiguous megablast 110 7e-179 / 5e-54 99% / 75%
megablast 43 0 / 2e-81 99% / 82%

3. Поиск гомологов с помощью BLASTp

Используем tblastn, уточнив через uniprot.org AC белка, для которого ищем гомологи. Поиск ведётся по базе RefSeq genomics, отбор результатов из выдачи ведётся по минимальному e-value и максимальной идентичности. С учётом того, что одна и та же последовательность может быть представлена в нескольких записях, не считаем дубликаты. Например, запись скэффолда, использованного при составлении генома, содержит тот же участок, что и запись этого генома. Результаты поиска гомологов для 5 белков в задании сведены в тблицу: Таблица результатов работы алгоритмов BLAST:

Белок Лучшая находка Заключение
Функция:Белок теплового шока
Масса, КДа:71
ID:HSP7C_HUMAN
AC:P11142
Файл:P11142.fasta
средиID записи% идентичных позиций% покрытияe-value
7NC_006611.392940
Гены, кодирующие гомологи HSP7C_HUMAN, найдены на 8-ой, 12-ой, 19-ой, 20-ой, 29-ой и Х-хромосоме. Лучшее соответствие было в скэффолде, который не смогли разместить в геноме (unplaced), поэтому данные приведены для 29-ой хромосомы.
Если понизить планку для e-value в соответствии с оценкой гомологичности TERT - следующего белка в таблице, то "хороших" находок получается 12,(на 2-ой, 4-ой,5-ой, 9-ой и 23-ей хромосомах). Но для окончательного убеждения в гомологичности требуется проверить аннотацию для каждой из них, что очень долго и не продиктовано заданием.
Функция:Теломераза (обратная транскриптаза)
Масса, КДа:126,997
ID:TERT_HUMAN
AC:O14746
Файл:O14746.fasta
среди1
ID записиNC_006616.3
% идентичных позиций57
покрытие87
e-value8e-68
Находка только одна, и степень гомологичности гораздо ниже по всем параметрам. И хотя "взглянуть" на последовательность белка массой 126КДа не выходит, можно найти в аннотации (ссылка Gene в секции Related info, упорядочиваем по хромосоме и ищем по номеру начала гена, который отображается в выдаче tblastn в выравнивании найденных последовательностей), что гомолог также определён как TERT.
Функция:Цитрат-синтаза
Масса, КДа:51,712
ID:CISY_HUMAN
AC:O75390
Файл:O75390.fasta
среди2
ID записиNC_006599.3
% идентичных позиций91
покрытие96
e-value>0
Гомологи найдены на 10-ой и 17-ой хромосоме. С учётом предыдущего опыта смотрим аннотацию для обеих находок, поскольку их оценки гомологичности гораздо лучше таковых у предыдущего белка. Обе оказались аннотированы как citrate synthase
Функция:Субъединица RPB1 ДНК-направляемой РНК-полимеразы II
Масса, КДа:217,176
ID:RPB1_HUMAN
AC:P24928
Файл:P24928.fasta
среди1
ID записиNC_006587.3
% идентичных позиций69
покрытие78
e-value4e-130
Всего находок 3, однако уже у второй по качеству покрытие составило 26%, поэтому гомологом считаем только первую.
Функция:Полиаденилат-связывающий протеин 2
Масса, КДа:32,749
ID:PABP2_HUMAN
AC:Q86U42
Файл:Q86U42.fasta
среди1
ID записиNC_006590.3
% идентичных позиций93
покрытие55
e-value4e-29
Несмотря на высокое e-value, которое вполне ожидаемо с учётом размера белка, считаем гомологом первую находку. Аннотация это подтверждает: ген, начинающийся с 3580427-ого нуклеотида, обозначен как poly(A) binding protein

4. Сходство геномов вирусов

Для анализа взята ДНК пяти разновидностей (то есть разноштаммностей) герпес-вируса человека (Viruses; dsDNA viruses, no RNA stage; Herpesvirales; Herpesviridae; Alphaherpesvirinae; Simplexvirus):
- Human herpesvirus 1 strain KOS 152011 bp , AC: JQ673480
- Human herpesvirus 1 strain KOS(2) 151024 bp, AC: JQ780693
- Human herpesvirus 1 isolate KOS 151974 bp, AC: KT899744
- Human herpesvirus 1 strain KOS79 135472 bp, AC: KT425109
- Human herpesvirus 1 strain 17 152222 bp, AC: NC_001806
Последовательность действий для получения сходства:
ls > HVir1Lst //создаём список файлов с последовательностями, подлежащими объединению
//не очень удачно: пришлось удалять первую строку списка, содержащую имя файла списка, поскольку вопреки моим ожиданиям сначала созаётся выходной файл, а уже потом выполняется команда ls - ассоциативность справа налево налицо. Надо было фильтровать имена для списка.
seqret @HVir1Lst hvir1_5in1.fasta //объединяем 5 последовательностей в один файл
makeblastdb -in hvir1_5in1.fasta -dbtype nucl //для tblastx создана база данных
tblastx -query hvir1_5in1.fasta -db hvir1_5in1.fasta -out hvir1_5in1_blast.out -outfmt 7 //поучаем вывод tblastx, содержит 10024 строки
python revise_blast_7.py --infile hvir1_5in1_blast.out --identity 50 --max_exp 5 --min_bits 20 --outfile hvir1_similar //обрабатываем скриптом, любезно предоставленным для выполнения работы (лежит здесь), число строк сокращается почти вдвое (5352 строки)

После вставки содержимго hvir1_similar в excel-таблицу получаем файл: HVir1_table.xls. Упорядочиваем совпадения по имени последовательности, поскольку ниже, чем 81% идентичности, у разных штаммов не наблюдается, да и тех, околовосьмидесятипроцентных, всего 16. Получим группы совпадений, в первой из которых будут совпадения первого штамма со семи остальными, во второй- совпадения второго штамма со всеми остальными, кроме первого, в третьей - со всеми, кроме первого и второго, и так далее. По числу совпадений оценим различия между штаммами.

id штаммма запросаid ответного штаммачисло совпаденийсредняя длина
JQ673480JQ780693453285,75
JQ673480KT425109576270,1
JQ673480KT899744429287
JQ673480NC_001806557272,1
JQ780693KT425109582268,9
JQ780693KT899744446285,37
JQ780693NC_001806561273,9
KT425109KT899744583269
KT425109NC_001806539264,9
KT899744NC_001806557273

Наибольшее число совпадений - 583- у isolate KOS и KOS79, однако и средняя длина совпадения у них наименьшая, и идентичность худшая, а по длине последовательности сильно разнятся. Наименьшее число совпадений - 429 - у штаммов KOS и isolate KOS, однако средняя длина совпадения наивысшая, и идентичность почти на всех участках 100%. Поэтому схожесть штаммов KOS и isolate KOS представляется более высокой.