Я работал в директории /mnt/scratch/NGS/art-salimgareev/pr15. Я скачал чтения с SRA ID SRR4240360 при помощи wget:
Далее я удалил с правых концов чтений нуклеотиды с качеством ниже 20, оставил только такие чтения, длина которых не меньше 32 нуклеотидов:
Я запустил программу velveth, результат работы которой записывается в папке velvet. Программа подготовила для сборки контигов k-меры длины 31:
Получилось 603 контига с N50 равным 43070, максимальной длиной контига 113474 нуклеотида.
Информация о трех самых длинных контигах приведена в таблице:
ID контига | Длина контига | Покрытие |
1 | 113474 | 33.525460 |
5 | 83603 | 33.646065 |
4 | 64155 | 35.847323 |
Я сопоставил три самых длинных контига с референсом - хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Первый контиг покрывает участок генома с 449411 нуклеотида до 555905 нуклеотида. Megablast построил 15 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 80%. Гэпов 3%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.
Четвертый контиг покрывает участок генома с 599832 нуклеотида до 32745 нуклеотида. Дело в том что этот контиг покрывает точку начала последовательности хромосомы в референсе. Megablast построил 12 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 78%. Гэпов 2%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями как и в случае с первыс контигом можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.
Пятый контиг покрывает участок генома с 98408 нуклеотида до 173180 нуклеотида. Megablast построил 8 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 77%. Гэпов 3%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями как и в случае с предыдущими контигами можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.