정보

전사체 시퀀싱 데이터의 데이터 분석

전사체 시퀀싱 데이터의 데이터 분석


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

트랜스크립톰 시퀀싱 데이터에 대한 데이터 분석 및 통계에 대해 자세히 알고 싶습니다. 해당 분야의 중요한 논문과 책, 그리고 가능한 경우 MOOCS를 읽고 싶습니다.

보다 정확하게는 개인의 다른 그룹에 걸쳐 차등적으로 발현되는 유전자의 데이터가 있고 한 그룹에서 유전자가 더 많이 발현되면 유전자도 더 다형성이 있는지 테스트하고 싶습니다.

어떤 아이디어?


차세대 염기서열분석을 이용한 전사체 분석

생물학, 생명 공학 및 의학 분야의 최신 연구에는 세포 상태, 생리학 및 활성 조사를 위한 빠른 게놈 및 전사체 분석 기술이 필요합니다. 여기에서 마이크로어레이 기술과 전사체의 차세대 시퀀싱(RNA-Seq)은 최신 기술입니다. 마이크로어레이 기술은 RNA의 양, 전사체 수준의 정량화 및 서열 정보에 대해 제한적이기 때문에 RNA-Seq는 현대 생물학적 분석에서 거의 무한한 가능성을 제공합니다. 이 장에서는 차세대 시퀀싱(NGS)에 대한 자세한 설명을 제공하고 이 기술이 전사체 분석에 미치는 영향을 설명하며 현대 RNA 세계를 탐색할 수 있는 가능성을 설명합니다.

그래픽 요약

하이라이트

► 차세대 시퀀싱(NGS)에 대한 자세한 설명을 제시합니다. ► 전사체 분석을 위한 기술 및 플랫폼에 대해 설명합니다. ► NGS 데이터 분석에 대해 설명합니다. ► NGS의 추가 적용에 대해 알려드립니다.


배경

플라보노이드는 식물에 광범위하게 분포하는 2차 대사 산물의 그룹입니다. 그들은 안토시아닌, 프로안토시아니딘, 플라보놀, 플라본 및 이소플라본과 같은 여러 주요 하위 그룹으로 나뉩니다[1]. 이러한 대사 산물은 특히 식물 발달 및 방어와 관련된 중요한 생물학적 역할을 합니다. 안토시아닌은 주로 꽃과 과일의 착색에 관여하는 수용성 색소입니다. 따라서 안토시아닌은 수분 매개체를 유인하는 데 중요하며 종자 분산에도 영향을 미칩니다[2]. 또한 안토시아닌은 천연 항산화제입니다[3]. 프로안토시아니딘은 응축된 탄닌으로 주로 종자에 농축되어 있지만 과일 맛에도 영향을 미칩니다[4]. 플라보놀, 플라본, 플라바논 및 이소플라본은 자외선과 병원체로부터 식물을 보호하는 데 도움이 됩니다[5]. 또한 플라보노이드는 생물적 및 비생물적 스트레스에 대한 식물 적응에 필수적입니다[6].

플라보노이드 생합성 경로는 페닐프로파노이드 경로[7]의 한 가지이며 여러 효소를 필요로 합니다. 예를 들어, PAL(페닐알라닌 암모니아 분해효소), CHS(chalcone synthase), CHI(chalcone isomerase) 및 F3H(flavanone 3-hydroxylase)를 인코딩하는 유전자는 초기 단계에서 공통 전구체를 생성하는 초기 생합성 유전자(EBG)입니다. 경로 [8]. 후기 생합성 유전자(LBG)는 후기 단계에 기여하며, 이 단계에서 안토시아닌, 프로안토시아니딘 및 플라보놀과 같은 특정 플라보노이드 제품이 합성됩니다. LBG는 DFR(dihydroflavonol 4-reductase), ANS(anthocyanin synthase), UFGT(UDP-glucose:flavonoid 3-glucosyltransferase)를 암호화하는 것으로 안토시아닌 생합성에 특이적으로 관여한다[9]. 대조적으로, LAR(leucoanthocyanidin reductase)과 ANR(anthocyanin reductase)은 proanthocyanidin 생합성을 매개하는 핵심 효소입니다[10]. 또한 FLS(flavonol synthase)는 플라보놀 생합성에 특이적입니다[11]. 플라보노이드 생합성 경로의 구조 유전자는 MYB 전사 인자, 기본 나선 루프 나선(bHLH) 및 WD 반복 단백질로 구성된 MYB-bHLH-WDR(MBW) 복합체에 의해 전사적으로 제어됩니다[12].

플라보노이드 생합성은 빛[13], 온도[14], 수분 부족[15], 영양 결핍[16] 등 다양한 요인에 의해 영향을 받습니다. 더욱이, 식물 호르몬은 식물에서 플라보노이드 화합물의 생합성의 가장 중요한 조절자 중 하나입니다. jasmonate[17, 18], abscisic acid[19, 20], auxin[21], ethylene[22], cytokinin[23], gibberellin[24]과 같은 식물 호르몬이 플라보노이드 축적에 미치는 영향은 널리 알려져 있습니다. 공부했다.

자스모네이트는 옥타데카노이드/헥사데카노이드 경로에 의해 합성되는 옥시리핀(산소화 지방산)입니다[25]. 자스몬산은 메틸 자스모네이트(MeJA), 자스모노일-이소류신(JA-Ile), 자스모닐-1-아미노시클로프로판-1-카르복실산(JA-ACC), JA의 글루코실화된 유도체(예: JA- O-Glc), 및 시스-자스몬. 그러나 이러한 파생물 중에서 MeJA와 JA-Ile만이 잘 특성화되어 있습니다[26]. 여러 연구에 따르면 MeJA 적용은 사과와 같은 다양한 과일 종에서 플라보노이드 생합성을 유도합니다.말루스 도메스티카) [27], 포도[28], 블루베리[29], 딸기(프라가리아 × 아나나사) [30]. 배에서 MeJA의 수확 후 적용은 UV-B/Vis 조사에서 과일 껍질에 안토시아닌 축적을 유도합니다[31]. 안토시아닌 외에도 Ni et al. [22] MeJA는 배 과일에서 플라본 및 이소플라본을 포함한 다른 플라보노이드 유도체의 축적을 증가시킨다고 보고했습니다.

자스모네이트 유도 안토시아닌 축적의 분자 메커니즘은 애기장대 (Arabidopsis) 및 사과 [17, 32, 33]. Jasmonate ZIM 도메인 단백질(JAZ)은 SCF COI1 복합체의 기질이며 jasmonate 신호 전달 경로를 부정적으로 조절합니다[34, 35]. JAZ 단백질은 MYB 및 bHLH와 직접 상호작용하고 MBW 복합체의 형성을 방해할 수 있습니다[32, 36]. jasmonate 신호가 감지된 후 JAZ 단백질은 COI1에 의해 유비퀴틴화를 위해 SCF COI1 복합체로 모집되고 후속적으로 26S proteasome 경로에 의해 분해됩니다[32]. 이는 MYB 및 bHLH 전사 인자의 방출과 MBW 복합체의 형성을 유발하여 플라보노이드 생합성 경로 구조 유전자의 발현을 활성화시킨다[18, 33]. MYB 및 bHLH 전사 인자 유전자의 발현 수준은 애기장대와 사과에서 MeJA에 의해 상향 조절되는데, 이는 이러한 전사 인자가 자스모네이트 신호 전달 경로에 의해 조절된다는 것을 시사합니다. 그러나 배에서 MeJA 유도 플라보노이드 생합성과 관련된 분자 메커니즘은 거의 알려져 있지 않습니다. 따라서 본 연구에서 MeJA로 처리된 배 캘러스는 MeJA 처리 및 처리되지 않은 대조군 배 캘러스 사이의 차등 발현 유전자(DEG)를 식별하기 위해 포괄적인 전사체 분석을 거쳤습니다. 또한, MeJA 유도 플라보노이드 생합성과 특이적으로 관련된 전사체를 검출하기 위해 공동 발현 네트워크를 구축하였다. 이 연구는 배에서 MeJA 유도 플라보노이드 생합성과 관련된 분자 메커니즘을 명확히 하기 위해 더 자세히 분석해야 하는 후보 유전자 풀을 생성했습니다. 특히, 우리는 배의 유전자 기능 연구를 실질적으로 가속화할 수 있는 균질한 시스템에서 유전자 효과를 관찰할 수 있고 계절적 제한이 없기 때문에 배 캘러스를 조사했습니다.


결과

전사체 시퀀싱을 기반으로 한 차등적으로 발현된 유전자의 경로 분류 맵

cDNA 라이브러리는 만다린 피쉬의 W 및 X 그룹으로 구성되었으며 Illumina Hiseq2000 시스템을 사용하여 시퀀싱되었습니다. 고품질 읽기가 조립되었습니다. 부분적으로 겹치는 서열을 제거한 후 총 77,312개의 별개의 서열을 얻었다(All-Unigene, 평균 크기: 1138 bp, N50: 2334 bp). 이들 unigene에서 500bp 미만은 49.06%(37,927), 500bp 이상은 50.94%(39,385), 1000bp 이상은 34.38%(26,578)였다. 우리는 54개의 유전자가 두 그룹 간에 차등적으로 발현된다는 것을 발견했으며, 그룹 X의 만다린 어류에서는 각각 29개 및 25개 유전자가 상향 조절되고 하향 조절되었습니다. 대사 경로는 가장 차별적으로 발현되는 유전자를 보여주었으며(그림 1a 및 b), 지질 대사, 신호 전달 및 전체 개요 맵에서 각각 10, 6 및 13개의 유전자가 차등적으로 발현되는 것으로 나타났습니다(그림 1a). 그리고 스테로이드 생합성과 글리세로지질 대사의 풍부한 인자가 가장 크다(Fig. 1b). 두 그룹 사이의 차등 발현된 유전자의 세부 사항은 표 1에 나와 있습니다. 이 연구의 시퀀싱 데이터는 SRA(Sequence Read Archive) 데이터베이스(수탁 번호: PRJNA613186)에 기탁되었습니다.

NS 차등적으로 발현되는 유전자의 경로 분류 맵. NS 전사체 시퀀싱을 기반으로 한 상이한 경로의 차등적으로 발현되는 유전자의 풍부한 인자

두 그룹의 차등 대사 산물 분석

우리는 양성(ESI+) 및 음성(ESI-) 스캔 모드에서 LC-MS로 두 그룹의 대사 프로파일을 분석하고 후속 분석을 위해 9249개의 철을 선택했습니다(ESI+ 모드에서 4155개 철, ESI- 모드에서 5094개 철).

표준화된 데이터는 다변량 분석을 통해 PCA 및 PLS-DA에 의해 분석되었습니다. PCA 결과는 다른 그룹의 양이온과 음이온이 두 클러스터에 있었고 처음 두 구성 요소에 의해 명확하게 분리되었음을 보여줍니다(그림 2a). PLS-DA 결과는 두 그룹의 명확한 분리를 보여 주었으며(그림 2b), 유의한 생화학적 변화를 시사합니다. 차등 대사 산물의 계층 적 클러스터링 분석 (HCA)은 그룹 X와 W가 유의 한 차이를 나타냄을 보여주었습니다 (그림 2c). 이러한 대사체 바이오마커의 정보는 표 2에 나열되어 있습니다.

NS PCA 점수는 두 그룹에 대한 양이온(왼쪽) 및 음이온(오른쪽) 스캔 모드의 산점도입니다. NS PLS-DA 점수는 두 그룹에 대한 양이온(왼쪽) 및 음이온(오른쪽) 스캔 모드의 산점도입니다. 양성 및 음성 모드 모두에서 두 그룹 간의 관련 경로에서 차등 대사 산물의 열 지도. 각 선은 차등 대사 산물을 나타내고 각 십자가는 혈장 샘플 그룹을 나타냅니다. 다른 색상은 다른 풍부 강도를 나타내며, 풍부 강도가 높을수록 어두운 색에서 붉은 색으로 점진적인 증가를 나타냅니다.

대사 산물을 식별하기 위해 우리는 자유롭게 액세스할 수 있는 교토 유전자 및 게놈 백과사전(KEGG) 데이터베이스를 사용하여 대사 산물의 추정 기능을 설명했습니다. 44번과 20번 아이언은 포지티브 모드에서 MS1과 MS2 레벨로, 네거티브 모드에서 MS1과 MS2 레벨에서 각각 24번과 11번 아이언이 식별되었습니다. 두 그룹 사이의 차동 이온의 세부 사항은 표 3에 나와 있습니다.

차등 대사 산물 및 유전자의 공통 경로

레티놀 대사 경로에서 retinol, 9-cis-retinol 및 11-cis-retinol 대사산물은 Group W보다 Group X의 만다린 어류에서 더 높았고, RDH(retinol dehydrogenase) 유전자 발현은 Group X에서 일관되게 더 높았다(Fig. 3a). ). glycerolipid 대사 경로에서 triacylglycerol lipase 유전자 발현은 Group X의 mandarin fish에서 더 높았고, glycerophosphoric 대사체도 Group X에서 더 높았다(Fig. 3b). 불포화 지방산 경로의 생합성에서 스테아로일-CoA 유전자 발현과 DPA(docosapentaenoic acid) 대사산물은 Group W보다 Group X에서 더 높았다(Fig. 3c).

전사체 및 대사체를 기반으로 하는 차등적으로 발현되는 유전자 및 대사물의 경로. NS 레티놀 대사 NS 글리세로지질 대사 불포화지방의 생합성

TFIIF 유전자 발현과 DNA 메틸화

도 4a에 도시된 바와 같이, 일반 전사 인자 IIF (TFIIF) 유전자 발현은 그룹 W의 것보다 그룹 X의 만다린 어류에서 더 높았다. 그런 다음 우리는 전사 개시 부위(0으로 지정)로부터 -5000 bp 상류에서 CpG 섬을 분석했습니다. TFIIF 메틸화 분석 소프트웨어에 의해 도 4b에 도시된 바와 같이, 9개의 CpG 부위를 포함하는 하나의 CpG 섬이 -3619 내지 -3574 bp의 bp에 존재하였다. TFIIF 유전자. 전체 DNA 메틸화 수준은 그룹 W보다 그룹 X의 어류에서 유의하게 더 높았다(표 4).

TFIIF 유전자 발현 및 DNA 메틸화. NS TFIIF 유전자 발현. NS 9개의 CpG 사이트를 포함하는 CpG 섬 사이트 영역의 그림, BSP로 분석된 두 그룹(X 및 W)의 DNA 메틸화 패턴. 각 선은 하나의 개별 박테리아 클론을 나타내고 각 원은 하나의 단일 CpG 디뉴클레오티드를 나타냅니다. 열린 원은 메틸화되지 않은 CpG를 나타내고 검은색 원은 메틸화된 CpG를 나타냅니다.

Ezh1 유전자 발현과 히스톤 메틸화

히스톤 메틸트랜스퍼라제의 mRNA 발현 에즈1 유전자는 그룹 X의 만다린 생선에서 더 낮았습니다(그림 5a). 히스톤 메틸트랜스퍼라제 Ezh1이 히스톤 H3의 'Lys-27'을 메틸화할 수 있으므로 두 그룹의 H3K27me3 수준을 분석했습니다. 그 결과 H3K27me3 수준도 그룹 W보다 그룹 X의 만다린 어류에서 더 낮았다(그림 5b).

NS 검증 에즈1 mRNA 발현. NS 그룹 X와 W 사이의 H3K27me3 단백질 수준. 데이터는 평균 ± SEM(N = 6), 유의한 차이는 별표(NS < 0.05)


RNA-Seq 데이터를 NCBI에 제출하기 위한 단계별 가이드

비 모델 유기체의 전사체 데이터 분석은 발달 과정, 종 분화, 적응 및 멸종을 포함한 진화 생물학의 다양한 측면에 대한 우리의 이해에 기여합니다. 이러한 다양성의 근간에는 방대한 양의 시퀀스 데이터 생성이라는 공유 기능이 있습니다. 대부분의 저널에서 데이터 가용성 요구 사항은 연구원들이 원시 전사체 데이터를 공개적으로 사용할 수 있도록 해야 하며 NCBI(National Center for Biotechnology Information)에 보관된 데이터베이스는 데이터 기탁을 위한 인기 있는 선택입니다. 안타깝게도 원시 시퀀스를 SRA(Sequence Read Archive)에 성공적으로 제출하고 전사체 어셈블리를 TSA(Transcriptome Shotgun Assembly)에 제출하는 것은 초보 사용자에게 어려울 수 있으므로 데이터 가용성 및 게시가 크게 지연될 수 있습니다. University of Veterinary Medicine Hannover의 연구원들은 RNA-Seq 데이터를 NCBI 데이터베이스에 제출하기 위한 두 가지 포괄적인 프로토콜과 함께 모든 경험 수준의 연구원이 적시에 데이터를 제출할 수 있도록 하는 사용하기 쉬운 웹사이트를 제공합니다.


RNA-seq: 원리

전체 전사체 샷건 시퀀싱이라고도 하는 RNA-seq는 주어진 샘플의 RNA 함량 및 구성을 특성화하기 위해 고처리량 시퀀싱 기술(아래 참조)을 사용하는 것을 말합니다. 현재 기술적인 한계로 인해 전사체의 염기서열 정보는 전체적으로 검색할 수 없지만 수백 염기쌍의 짧은 읽기로 무작위로 분해됩니다(그림 2). 게놈 또는 전사체 정보가 없는 경우 전사체는 먼저 이러한 읽기(또는 읽기 쌍)에서 재구성해야 합니다. 드 노보 집회. 전사체 또는 게놈 정보를 쉽게 사용할 수 있는 경우 판독값을 참조에 직접 정렬할 수 있습니다. 또한, 주어진 전사체에 해당하는 판독값을 계산하면 전사체 풍부도의 디지털 측정이 제공되며, 이는 생물학적 추론의 출발점 역할을 합니다(그림 1).


목차(16장)

RNA-Seq를 사용한 비모델 진핵생물의 유전자 발현 프로필 비교

전사체 프로파일링을 위한 마이크로어레이 데이터 분석

전사체에서 차등적으로 발현되는 유전자의 경로 및 네트워크 분석

QuickRNASeq: 파이프라인 구현 및 대화형 결과 시각화 가이드

SpliceHunter의 긴 읽기에서 대안적으로 접합된 Isoform 추적

TrBorderExt를 사용한 RNA-Seq 기반 전사 구조 분석

GIREMI를 사용하여 RNA-Seq 데이터에서 RNA 편집 사이트 분석

MicroRNA 시퀀싱 데이터의 생물정보 분석

Bioconductor를 사용한 Microarray 기반 MicroRNA 발현 데이터 분석

긴 유전자간 비코딩 RNA의 식별 및 발현 분석

TEtranscripts를 사용한 RNA-Seq 데이터 분석

딥 시퀀싱을 통한 RNA-단백질 상호작용의 전산 분석

유전자 발현 변이로부터 유전자 발현 잡음 예측

RNA-Seq 데이터를 사용한 후성유전적 각인 분석을 위한 프로토콜

SINCERA 파이프라인을 사용한 단일 세포 전사체 분석

분자 이질성의 수학적 모델링 및 디콘볼루션은 복잡한 조직에서 새로운 하위 집단을 식별합니다


벤치에 빅 데이터: 학부생을 위한 전사체 분석

차세대 시퀀싱(NGS) 기반 방법은 생물학에 혁명을 일으키고 있습니다. 그들의 보급으로 인해 생물학자들은 엄청난 규모의 데이터를 관리하기 위한 계산 방법에 대해 점점 더 많이 알고 있어야 합니다. 따라서 NGS 분석에 대한 조기 소개 및 습식 실험실 실험에 대한 개념적 연결은 젊은 과학자를 훈련하는 데 중요합니다. 그러나 특수 컴퓨터 프로그램 및 컴퓨터 코딩 지식의 필요성을 포함하여 이러한 방법을 학부 교실에 도입하는 데 상당한 어려움이 있습니다. 여기에서는 RNA 시퀀싱(RNA-seq) 분석과 빛에 대한 식물 반응을 조사하기 위한 습식 실험실 실험을 결합한 교양 대학에서 한 학기 동안의 과정 기반 학부 연구 경험을 설명합니다. 학생들은 RNA-seq 데이터 분석을 기반으로 가설을 도출하고 유전자 발현 및 식물 성장에 대한 후속 연구를 설계했습니다. 우리의 평가는 학생들이 빅 데이터 분석 및 컴퓨터 코딩에 대한 지식을 습득했음을 나타냅니다. 그러나 계산 방법에 더 일찍 노출되면 유익할 수 있습니다. 우리 과정은 식물 생물학에 대한 최소한의 사전 지식이 필요하고 복제하기 쉽고 더 짧은 지시형 탐구 모듈로 수정할 수 있습니다. 이 프레임워크는 명확하고 다루기 쉬운 예를 사용하여 유전자 발현과 표현형 사이의 연관성에 대한 탐구를 촉진하고 계산 기술과 생물정보학 자기 효능감을 향상시켜 학생들이 현대 생물학의 "빅 데이터" 시대를 준비할 수 있도록 합니다.

피규어

일정 요약…

수업 활동 일정 요약.

유전자 발현에 대한 학생 분석…

음영 처리된 유전자 발현 및 표현형에 대한 학생 분석 애기장대 묘목. (A) 순서도…


차세대 시퀀싱 데이터 분석을 위한 전산 방법

이 책은 NGS의 최근 개발에 대한 심층 조사를 제공하고 NGS 기술의 다양한 응용 분야에서 수학적 및 계산적 문제를 논의합니다. 이 책에 실린 18개의 장은 생물정보학 전문가들이 저술했으며 NGS의 빠르게 성장하는 분야에 적극적으로 기여하는 주요 연구실의 최신 작업을 나타냅니다. 이 책은 네 부분으로 나누어져 있습니다:

1부에서는 클라우드 컴퓨팅, 대사 경로 재구성을 위한 모듈식 파이프라인, 대규모 바이러스 시퀀싱을 위한 풀링 전략, 고충실도 시퀀싱 프로토콜에 대한 장을 포함하여 NGS 분석을 위한 컴퓨팅 및 실험 인프라에 중점을 둡니다.

파트 II에서는 고전적인 스캐폴딩 문제를 다루는 DNA 시퀀싱 데이터 분석, 삽입 및 삭제를 포함한 게놈 변이체 감지, DNA 메틸화 시퀀싱 데이터 분석에 중점을 둡니다.

파트 III는 RNA-seq 데이터의 분석에 전념합니다. 이 부분에서는 대체 스플라이싱의 검출 방법과 전사체 정량화 및 차등 발현 분석을 위한 도구와 함께 전사체 어셈블리용 소프트웨어 도구와 알고리즘에 대해 논의하고 비교합니다.

IV부에서는 바이러스 개체군의 NGS 판독 오류 수정, 바이러스 준종 재구성 방법, 최신 방법 및 미생물군집 분석의 미래 경향에 대한 조사를 포함하여 미생물 공학에서 NGS 응용을 위한 계산 도구를 탐구합니다.

차세대 시퀀싱 데이터 분석을 위한 전산 방법:

  • 새로운 조합 최적화 방법, 데이터 구조, 고성능 컴퓨팅, 기계 학습 및 추론 알고리즘과 같은 계산 기술을 검토합니다.
  • NGS 기술의 수학적 및 계산적 문제에 대해 논의합니다.
  • NGS 오류 수정, 새로운 게놈 전사체 조립, NGS 판독에서 변이체 감지 등을 다룹니다.

이 텍스트는 NGS 데이터 분석을 위한 계산 기술에 대한 지식을 확장하는 데 관심이 있는 생물 의학 전문가를 위한 참고 자료입니다. 이 책은 생물정보학 대학원생과 대학원생에게도 유용합니다.

저자 약력

이온 만도이우 박사, 미국 코네티컷 대학교 컴퓨터 공학부 부교수이다. 그의 주요 연구 관심 분야는 특히 생물정보학 분야에서 NP-hard 최적화 문제에 대한 근사 알고리즘의 설계 및 분석입니다. Mandoiu 박사는 저널 및 회의 절차에 100개 이상의 참고 논문을 저술했습니다. 그는 또한 (A. Zelikovsky와 함께) 에 관한 책을 공동 편집했습니다. 생물정보학 알고리즘: 기술 및 응용 (Wiley 2008).

알렉산더 젤리코프스키, 박사, 미국 조지아주립대학교 컴퓨터 공학부 석좌교수입니다. 그의 연구는 계산 생명 공학 및 생물학, 생물 정보학, VLSI CAD 및 무선 네트워크에서 이산 알고리즘과 응용 프로그램에 중점을 둡니다. Zelikovsky 박사는 170개 이상의 추천 출판물을 저술했습니다. 그는 생물정보학 연구 및 응용에 관한 국제 심포지엄(2005-2016) 및 차세대 시퀀싱의 컴퓨터 발전에 관한 워크숍(2011-2015)의 공동 의장을 역임했습니다.


리뷰어 코멘트

리뷰어 보고서 1

로한 윌리엄스(Rohan Williams), 호주 국립대학교의 존 커틴 의학 연구 대학. 개빈 허틀리 지명

RNA-Seq 및 관련 고처리량 시퀀싱은 편견 없는 글로벌 방식으로 전사체를 조사할 수 있는 잠재력으로 인해 큰 관심을 받고 있습니다. 이러한 시퀀싱 기반 접근 방식은 마이크로어레이 기반 기술의 주요 발전을 허용할 가능성이 높지만 이러한 데이터에 예상치 못한 시스템 오류가 존재할 가능성이 높으며 적절한 적용을 허용하기 위해 수정해야 합니다. 발현 마이크로어레이 및 타일링 어레이는 이러한 영향을 많이 받는 것으로 알려져 있지만 현재까지 새로운 RNA-Seq 문헌에서 문제에 대한 조사는 거의 없었습니다. Oshlack과 Wakefield는 최근 몇 가지 RNA-Seq 연구의 데이터를 재분석하여 차등 발현의 식별이 더 긴 전사체에 대해 긍정적으로 편향되어 있음을 보여줍니다(기능적 수준에서 다운스트림 해석에 영향을 미칠 가능성이 있음). 태그 수가 발현 수준과 전사체 길이의 곱에 비례한다는 사실이 인정되지만, 전사체 길이를 조정해도 이 효과가 제거되지 않습니다. 저자는 단축된 전사체에 대한 증가된 분산으로 인해 효과가 발생함을 보여줍니다. 그들은 이 효과가 엑손 수준 분석에 의해 제거되지 않을 것이라고 더 주장합니다. 흥미롭게도, 이 효과는 마이크로어레이 발현 플랫폼에서 관찰할 수 없습니다. 이 문서는 RNA-Seq에 대한 분석 방법론의 지속적인 개발에 중요한 기여를 했으며 Biology Direct에 게재할 것을 권장합니다.

리뷰어 보고서 2

Nicole Cloonan, 호주 퀸즐랜드 대학교 분자 생명과학 연구소 마크 레이건 지명

이 논문에서 저자는 "산탄총 시퀀싱" 접근 방식을 사용하여 긴 mRNA와 비교할 때 짧은 mRNA의 차등 유전자 발현을 감지하기 위해 감소된 통계적 검정력인 RNAseq 데이터의 "전사체 길이 편향"을 설명합니다. 무작위로 단편화된 mRNA 분자는 더 긴 전사체보다 짧은 전사체에 대해 더 적은 짧은 판독 태그를 생성하므로 2개의 (상대적으로) 제대로 샘플링되지 않은 전사체 간의 발현 변화는 샘플링 노이즈에서 덜 식별할 수 있습니다. 저자는 이러한 편향이 시퀀싱 데이터에는 존재하지만 동일한 샘플의 해당 마이크로어레이 데이터에는 존재하지 않는다는 것을 보여주기 위해 3개의 게시된 산탄총 시퀀싱 기반 연구를 조사했습니다. 짧은 전사체에 대한 이러한 편견은 짧은 유전자가 풍부한 기능적 범주(예: 세포 간 통신, 선천 면역 및 신호 전달)에 대한 유전자 세트 테스트에서 일반적으로 과소 대표될 수 있습니다. 이것은 RNA 시퀀싱 커뮤니티가 인식해야 하는 중요한 발견입니다.

원고는 일반적으로 잘 작성되었으며 저자는 전문적인 수학 또는 통계 교육 없이 생물학적 청중이 이해할 수 있는 원고를 작성하는 데 능숙했습니다. 이 원고에 대한 나의 (일반적으로 사소한) 모든 우려가 적절하게 해결되었으므로 이 원고를 출판할 것을 권장합니다.

리뷰어 보고서 3

James Bullard, 미국 버클리 캘리포니아대학교 공중보건대학 생물통계학부 Sandrine Dudoit 추천

Oshlack과 Wakefield에서 저자들은 3개의 발표된 연구(Marioni et al., Cloonan et al., Sultan et al.)에서 통계적 테스트의 관찰된 유의성과 유전자 길이 사이의 관계를 보여줍니다. 저자는 마이크로어레이가 사용될 때 Marioni 연구에서 동일한 샘플의 분석에서 이러한 관찰된 경향이 존재하지 않음을 보여줍니다. 이 "편향"은 시퀀싱된 전사체의 길이에 비례하는 읽기 프로세스의 강도에 대한 분산의 의존성 때문입니다.

검토자는 제시된 문제가 관련성 있고 중요하므로 출판을 위해 논문을 추천합니다. 특히, 제시된 문제는 수많은 고처리량 시퀀싱 연구의 출현과 매우 관련이 있습니다. 검토자는 현재 형태의 기사가 수학을 더 엄격하게 제시하거나 문제가 되는 연구에 설명된 통계를 단순히 제시하기 위해 일부 수정으로 도움이 될 것이라고 믿습니다.

배경: 단락 2, "우리는 가설을 세웁니다." 왜 가설을 세우는가? 이 문장은 특정 검정 통계에 대한 참조가 필요하다고 생각합니다. 그러면 실제로 아무 것도 가정할 필요가 없습니다.

저자의 답변: 우리는 기사의 진술이 우리가 언급한 가정 하에 모든 통계적 분석 방법과 관련이 있다고 믿습니다. 그러나 우리는 가능한 모든 방법을 테스트하지 않았으며 실제로 테스트할 수도 없습니다. 따라서 우리는 가설이라는 단어를 사용했지만 방법 섹션에서도 예제를 제공했습니다..

배경: 단락 3, "탐지를 위한 모든 방법." 이 ​​문장이 좀 강해 보이지 않습니까?

작성자 답변: "대부분의 통계적 방법"으로 수정했습니다.

결과: 단락 2, "길이 편향"이 덜 발현된 유전자에 대해 더 강한 이유를 설명할 수 있습니까? 또한 중간 빈을 제외하는 것보다 플롯에 모든 데이터를 제시하는 것이 더 낫다고 생각합니다.

저자의 응답: "우리는 p-값이 더 높더라도 이 데이터 세트에서 거의 모든 유전자가 이 데이터 세트에서 차등적으로 발현되었다고 부를 수 있는 충분한 능력을 가지고 있다는 관찰로 인해 고도로 발현된 유전자에서 기울기가 더 낮다고 믿습니다. 더 짧은 유전자를 위해."

결과: 단락 3, 평균-분산 플롯에서 분산을 어떻게 계산합니까? 이것은 단지 표본 분산입니까? 차선에 따라 다른 수는 어떻습니까? 패널 (2)의 경우 길이로 나눈 후 포아송이 없으므로 평균-분산 플롯이 정확하지 않거나 최소한 적절한 해석이 명확하지 않습니다. 이제 길이의 제곱으로 크기를 조정하기 때문에 플롯의 이동?)

저자의 답변: 그렇습니다. 이것이 바로 우리가 하고자 하는 요점입니다. 이 플롯은 길이로 나누는 것이 길이 편향을 제거하지 않는다는 엄격한 증거라기보다는 본질적으로 더 발견적입니다. 따라서 시각적 시연으로 차선 전체의 다른 수를 고려하지 않고 표본 분산을 사용했습니다. 명확하게 하기 위해 다음 문장도 추가했습니다. "그러나 평균을 기록의 길이로 나누면 관계가 더 복잡해지고 데이터는 분명히 더 이상 포아송이 아닙니다."

결과: 단락 4, 잠재적으로 "더 나은" 플롯은 마이크로어레이 및 시퀀싱 데이터 모두에 대해 가장 큰 것에서 가장 작은 KEGG p-값으로 정렬된 (유전자 길이의) 상자 그림일 것입니다.

작성자의 답변: 제안 감사합니다. 우리는 당신이 제안한 줄거리가 해석하기 조금 더 까다롭다고 느꼈습니다..

방법: 단락 1, 수학은 약간 엉성합니다. 일반적으로 확률 변수와 매개변수 사이에는 혼동이 있습니다. 특히 두 가지 명백한 오류가 있습니다. 1.) NS 는 한 가지(방정식 (1)의 rhs에 대한 임의 변수)로 정의된 다음 다른 것으로 재정의됩니다(다음 정의의 rhs에 대한 매개변수). 2.) 방법: 단락 2, 뮤' 는 매개 변수입니다. 그러면 당신은 Var(μ') 이것은 잘못된 것입니다. 아마도 다음을 정의하고 싶을 것입니다. NS' 대신 분산을 취할 수 있습니다.

작성자 답변: 지적해주셔서 감사합니다. 우리는 수학을 수정하고 정리했습니다..

귀하의 치료에서 t를 √ L로 나누어 검정 통계에서 L에 대한 종속성을 제거할 수 있는 것으로 보입니다. 이것이 맞습니까?

작성자의 답변: 아니요, 저는 이것이 가능하지 않다고 생각합니다. t-검정은 신호 대 잡음비와 같으므로 평균 추정치와 추정치의 표준 오차 사이에 특정 관계가 있습니다. 나는 이것이 본질적으로 평균 추정치를 √ L로 나누어서 깨져야한다고 생각하지 않습니다..



코멘트:

  1. Brion

    당신은 재능있는 사람입니다

  2. Cord

    똑똑한 것들이 말한다)

  3. Horado

    나는 최종적으로, 죄송합니다. 다른 결정을 제공하고 싶습니다.



메시지 쓰기