Модульная организация (за каждую часть анализа отвечает своя небольшая «подпрограмма»)
Для получения результата подпрограммы должны выстраиваться в цепочки, которые называются pipeline. Результат одной подпрограммы в цепочке является исходными данными для следующей подпрограммы.
Каждый компонент pipeline имеет множество настроек. «Правильные» настройки зависят от результата, который требуется получить, и часто неизвестны заранее.
Большинство подпрограмм созданы для операционной системы Linux и не имеют интерфейса пользователя.
Анализ данных NGS. Брагин Антон, Sequoia Genetics. 2013.
Контроль и улучшение качества результатов
секвенирования
Barry Merriman, Ion Torrent R&D Team, Jonathan M. Rothberg. Progress in Ion Torrent semiconductor chip based sequencing
Electrophoresis 2012, 33, 3397–3417 3397
Первичный анализ
DAT файлы обрабатываются на сервере Torrent Suite Server (v3.6.2)
Вторичный анализ
BAM файлы обрабатываются при помощи плагинов.
Børsting, C., Fordyce, S. L., Olofsson, J. K., Mogensen, H. S., & Morling, N. (2014). Evaluation of the Ion Torrent™ HID SNP 169-plex: A SNP typing assay developed for human identification by second generation sequencing. Forensic science international. Genetics, 12C, 144-154.
Возможные ошибки
Barry Merriman, Ion Torrent R&D Team, Jonathan M. Rothberg. Progress in Ion Torrent semiconductor chip based sequencing
Electrophoresis 2012, 33, 3397–3417 3397
Норма
Димер адаптеров
Слишком короткий фрагмент
2) Чтение сквозь. Фрагмент ДНК образца короче, чем длина чтения – чтение захватывает часть адаптера
3) Фазировка. Отдельные олигонуклеотиды в кластере со временем начинают обгонять или отставать от остальных – секвенатору сложнее определить букву
Чем дольше идёт прогон, тем больше будет накапливаться отстающих и опережающих олигонуклеотидов
Technical Note. Trimming and Filtering
http://mendel.iontorrent.com/ion-docs/Technical-Note---Filtering-and-Trimming_6455370.html
(англ. trim – приводить в порядок)
1) Barry Merriman, Ion Torrent R&D Team, Jonathan M. Rothberg. Progress in Ion Torrent semiconductor chip based sequencing
Electrophoresis 2012, 33, 3397–3417 3397. 2) http://en.wikipedia.org/wiki/Phred_quality_score
Типичные значения Q от 1 до 40
Q>20 – «хорошее качество»
Q = -10log10P
Последовательность
Качество
FASTQ – стандартный формат
записи чтений
http://en.wikipedia.org/wiki/FASTQ_format
1. Оценивается фоновый сигнал пустых лунок и вычитается из необработанного сигнала лунок с ионосферами.
2. Необработанные сигналы нормализуются в соответствии с ключевой последовательностью (TCAG) в адаптере.
3. Проводится присваивание названий нуклеотидам (base calling) и проводится оценка качества каждой буквы (оценка Phred).
4. Удаляются последовательности низкого качества, димеры праймеров и последовательности от поликлональных ионосфер.
5. Последовательности обрезаются в соответствии с баллами Phred (среднее значение Phred на протяжении 30 п.о. <15), в соответствии с дисбалансом сигнала (> 3% нуклеотидов в последовательности были 0.5-0.59 или 1.4-1.49 п.о. для одной буквы и 1.5-1.59 или 2.4-2.49 п.о. для двух букв) и по последовательности нуклеотидов в 3‘ адаптере.
6. Последовательности выравниваются на референс (эталонная последовательность генома человека – 19) и генерируется бинарный файл с координатами выравнивания (BAM файл)
Technical Note. Trimming and Filtering
http://mendel.iontorrent.com/ion-docs/Technical-Note---Filtering-and-Trimming_6455370.html
Ion Proton™ System Pipeline
Ion Proton™ System Pipeline
Основные задачи
при работе с прочтениями на Ion PGM™ Torrent Server
Ion Proton™ Runs with MAQC Universal Human Reference (UHR)
65% Avg
Mapping
Rate
Шаг 1: Тримминг по качеству
3’ конца и Ion P1B адаптеру
Шаг 2: Оценка и контроль качества
Per Base Sequence Quality
Per Sequence Quality Scores
Per Base Sequence Content
Per Base GC Content
Per Sequence GC Content
Per Base N Content
Sequence Length Distribution
Duplicate Sequences
Overrepresented Sequences
Overrepresented Kmers
В чтении ошибочный нуклеотид -> k-mer, которому он принадлежит, уникален -> ошибку можно исправить, сравнив этот k-mer с k-merами других чтений
Это размер слов, на которые ассемблер нарезает риды
(kmer size <= длина одинарного рида)
короче kmer длиннее kmer
Надо больше
памяти
Надо меньше
памяти
Ассемблер находит больше перекрытий ридов, N50 растет, схлопываются похожие участки генома
Ассемблер находит меньше перекрытий ридов, N50 уменьшается, повышается точность сборки
Шаг 3: Картирование
Программа-картировщик TMAP
(The Torrent Mapping Alignment Program for Ion Torrent Data)
r001/1 и r001/2 спаренные риды
r003 химерный рид
r004 разделенное выравнивание
ID чтения
хромосома и координата, куда "легло" чтение
качество картирования согласно картировщику
Экзоны 1, 3 & 7
Экзоны 1, 3, 4, 5 & 6
Ion Torrent data from RNA-Seq
Анализ РНК позволяет обнаруживать новые экзоны и различные сплайс-изоформы мРНК
Ion Torrent data from RNA-Seq
Сохранение информации о полярности транскрипта:
четкое разделение прочтений смысловой и антисмысловой полярности
Анализ полного транскриптома:
Обнаружение химерных транскриптов
Химерные транскрипты могут образовываться в результате транслокаций участков хромосом
Что делает:
из SAM-файла извлекает координаты картированного прочтения
определяет перекрывание с известными экзонами из RefSeq.
Информацию об известных экзонах можно загрузить с сайта UCSC Genome Browser в формате файла RefGene GTF.
Для подсчета Контроля (92 варианта последовательностей ERCC) – добавляем их в файл RefGene GTF.
92 варианта полиаденилированных транскриптов
размер транскриптов 250-2000 нукл.
«мимикрирует» под естественную эукариотическую мРНК
Контроль
ERCC RNA Spike-In Control Mixes
Корреляция с данными TaqMan
Ion Proton™ RNA-Seq Data has Strong Correlation to TaqMan MAQC Data
Более широкий динамический диапазон, чем у микрочипов
Усредненные данные трех 314 чипов и данные одного 316 чипа на образец РНК РНК сравнивались с усредненными данными трех микрочипов Affymetrix на образец (плацента vs. легкое). Оба чипа демонстрируют более широкий ДД; 316 чип более чувствительный.
Корреляция с данными микрочипов Affymetrix
Ion Proton™ RNA-Seq Data has Strong Correlation to TaqMan MAQC Data
Шаг 5: Статистика
Нормализация данных RNA-Seq
Цифровая нормализация (digital normalization) – уменьшение покрытия слишком представленных транскриптов
Нормализация с помощью программы khmer позволяет уменьшить количество чтений ~ в сто раз без потери качества сборки.
Скорость сборки также увеличивается ~ в сто раз
Также нормализация поможет при single-cell секвенировании
Статистические подходы к анализу
экспрессионных данных
Шаг 1: Тримминг по качеству
3’ конца и Ion P1B адаптеру
Шаг 3: Картирование
SHRiMP – картировщик коротких прочтений на референс малых РНК, содержащий последовательности шпилечных структур микроРНК, тРНК, рРНК и 3’ адаптера.
Шаг 5: Статистика
ПО: Partek® Flow®, Partek® GS®, Partek® Pathway®
Всесторонний анализ данных
Partek® Flow® analysis software
Partek® Flow® analysis software
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть