Учебный сайт Карины Сим
  • Главная
  • Семестры
  • Обо мне
  • ФББ

    Практикум 14

    Для выполнения данного практикума мне был предоставлен код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7.

    Код доступа: SRR4240356.

    Далее был скачан архив с чтениями посредством следующей команды:

    wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

    Подготовка чтений

    Для начала я удалила возможные остатки адаптеров. Для этого я объединила файлы с адаптерами в один при помощи следующей команды:

    cat /mnt/scratch/NGS/adapters/*.fa > adapters.fa

    После этого я запустила следующую команду:

    TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_noadapt.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7

    Результат работы:

    Input Reads: 7511529 Surviving: 7358438 (97.96%) Dropped: 153091 (2.04%)

    То есть 2.04% последовательностей оказались адаптерами.

    После этого с правых концов чтений были удалены нуклеотиды с качеством ниже 20, а также были оставлены только чтения с длиной не меньше 32 нуклеотидов с помощью следующей команды:

    TrimmomaticSE -phred33 SRR4240356_noadapt.fastq.gz SRR4240356_noadapt2.fastq.gz TRAILING:20 MINLEN:32

    Результат работы:

    Input Reads: 7358438 Surviving: 7053346 (95.85%) Dropped: 305092 (4.15%)

    Было удалено 4.15% чтений.

    При этом размер изначального файла с чтениями 167 Мб, после удаления адаптеров – 164 Мб, размер финального файла – 155 Мб.

    Подготовка k-меров

    Следующим шагом я подготовила k-меры длины 31 при помощи следующей команды:

    velveth k-mers 31 -fastq.gz -short SRR4240356_noadapt2.fastq.gz

    Сборка на основе k-меров

    После этого я запустила следующую команду:

    velvetg k-mers

    N50: 65554

    Информация о контигах содержится в файле contigs.fa, полученном в результате работы программы.

    Для того, чтобы узнать длины трёх самых длинных контигов я воспользовалась следующим конвейером:

    grep -e '>' contigs.fa | sort -t "_" -k4 -n -r

    Три самых длинных контига:

    • Контиг 8, длина: 111962, покрытие: 38.660198
    • Контиг 6, длина: 107488, покрытие: 34.174030
    • Контиг 10: длина: 80939, покрытие: 37.524174

    Медианное покрытие: 16.63705

    После этого я отсортировала контиги по покрытию с помощью следующего конвейера:

    grep -e '>' contigs.fa | sort -t "_" -k6 -n -r

    Найдены контиги с аномально большим покрытием. Например, контиг 27 с покрытием 458.429077, контиг 17 с покрытием 447.494751, контиг 14 с покрытием 444.608124.

    Также есть контиги с аномально малым покрытием: контиг 74 с покрытием 3.064516 и контиг 123 с покрытием 2.362637.

    Анализ

    После этого при помощи megablast я сравнила каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (AC: CP009253).

    Контиг 8

    Координаты участка хромосомы, соответствующего контигу: 451729-555905

    Процент гэпов: 2.6%

    Всего получилось 15 участков, на которых последовательности выровнялись (рисунок 1).

    Рисунок 1
    Рисунок 1. Карта локального сходства для контига 8 и хромосомы Buchnera aphidicola.

    Контиг 6

    Координаты участка хромосомы, соответствующего контигу: 220869-323043

    Процент гэпов: 2.6%

    Всего получилось 18 участков, на которых последовательности выровнялись (рисунок 2).

    Рисунок 2
    Рисунок 2. Карта локального сходства для контига 6 и хромосомы Buchnera aphidicola.

    Контиг 10

    Координаты участка хромосомы, соответствующего контигу: 126623-195400

    Процент гэпов: 1.7%

    Всего получилось 11 участков, на которых последовательности выровнялись (рисунок 3).

    Рисунок 3
    Рисунок 3. Карта локального сходства для контига 10 и хромосомы Buchnera aphidicola.

    Можно заметить, что на всех картах локального выравнивания есть "разрывы". Возможно, эти разрывы соответствуют вариабельным участкам.