정보

유전자 발현을 위한 htseq 카운트(TCGA)를 전처리하는 방법

유전자 발현을 위한 htseq 카운트(TCGA)를 전처리하는 방법



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

TCGA LAML 데이터를 분석하기 위해 유전자 발현 매트릭스를 준비하고 싶습니다.

필요한 데이터는 TCGA LAML - 유전자 발현 정량화에서 확인할 수 있습니다.

다음은 TCGA 데이터 포털에서 검색된 데이터 종류의 예입니다.

ENSG00000001167.13 ENSG00000001460.16 5,038 246 2,773 ENSG00000001461.15 ENSG00000001497 ENSG00000001084.9 4423 ENSG00000000971.14 251 ENSG00000001036.12 ENSG00000000457.12 786 1,434 1,211 ENSG00000000460.15 ENSG00000000938.11 405 ENSG00000000005.5 1 ENSG00000000419.11 661 ENSG00000000003.13 9. 15 1932 ENSG00000001561.6 1693 ENSG00000001617.10 55 ENSG00000001626.13 8 ENSG00000001629.8 4629

각 행은 각 유전자에 대해 htseq 도구에 의한 읽기 수의 정량화를 표시합니다.

제 질문은 후속 분석을 위해 데이터를 사용하기 전에 데이터(예: 유전자 길이 관련)를 어떻게 전처리해야 합니까?

이 경우 정규화(예: 황토) 및 배치 효과 제거(예: 전투)를 고려하지 않습니다.


특정 유형의 암에 대한 원시 RSEM 유전자 수를 다운로드하기 위해 TCGAbiolinks를 사용하는 방법(COAD RNA-Seq 데이터 세트) #59

우리의 토론 후에, 나는 또한 완전한 제안과 피드백을 얻기 위해 여기에서 포스트를 시작합니다!! 간단히 말해서, 결장직장암에 관한 나의 현재 특정 프로젝트를 기반으로 일부 차등 유전자 발현(정상 샘플을 사용할 수 있는 경우)을 수행하기 위해 COAD RNA-Seq 데이터 세트/또는 READ 데이터 세트를 다운로드하고 싶습니다. 분자 하위 유형도 존재하는 경우 비교. 그래서 제 구체적인 질문은 다음과 같습니다.

그러나 위 섹션에서 데이터세트에 레이블이 있으므로 "유산" (튜토리얼에도 정보로 표시됨) 인수도 포함해야 합니다. file.type= "결과" ?

또는 위의 구현이 잘못 되었습니까?

둘째, 논증 유산도 참조 게놈 정렬 결과를 변경합니까? 예를 들어, READ 데이터 세트에 lecagy=TRUE 인수를 사용하지 않는다면? 그리고 본질적으로 hg38에 대한 접근 정렬을 사용하는 것이 더 적절할 것입니까?

또한, 다운로드한 데이터에 대한 sample_type을 보려면(예: 종양을 제외한 정상적인 샘플이 있는 경우) 다음을 사용해야 합니다.

  1. 마지막으로, 최신 기능을 구현하려면 최신 버전의 github를 사용/설치하는 것이 좋습니다.

순진한 질문에 대해 실례합니다 (나는 또한 논문과 상대적 비네트를 읽었습니다). 그러나 데이터를 적절하게 사용하기 위해 모든 접근 방식에 대해 확신하고 싶습니다 !!

텍스트가 성공적으로 업데이트되었지만 다음 오류가 발생했습니다.

현재 작업을 문제로 변환할 수 없습니다. 다시 시도해 주세요.

문제가 성공적으로 생성되었지만 현재 댓글을 업데이트할 수 없습니다.


소개

육종은 다른 조직에서 기원하는 이질적이고 드문 중간엽 악성 종양입니다. 육종의 생물학적 특성은 이 질병의 높은 이질성과 흔하지 않기 때문에 잘 이해되지 않습니다. 평활근 세포에서 기원하는 평활근육종(LMS)은 육종의 14%를 차지하며 가장 인기 있는 연조직 육종입니다 1 . Microarray 분석은 LMS를 세 가지 하위 유형으로 나눕니다. 아형 I은 근육 관련 유전자를 발현하고, 아형 II는 평활근과의 유의미한 분화를 나타내지 않으며, 아형 III은 특정 해부학적 부위를 나타내며 자궁에서 유래한다 2. 최근에는 LMS의 분자적 이질성을 설명하려는 노력이 증가하고 있다. 높은 처리량 기술은 생물학적 시스템의 다양한 측면에 대한 새로운 통찰력을 생성할 수 있는 기회를 제공합니다. 이 기회는 향후 새로운 LMS 치료법을 찾는 데 있어 드문 임상 시험 횟수를 보상할 수 있습니다.

LMS 3,4,5의 유전자 발현 분석에 대한 몇 가지 연구가 있습니다. 발견된 일부 유전자는 건강한 조직 3과 비교하여 LMS에서 차등적으로 발현되었습니다. 또한, BCL2 관련 작용제(BAD), SRC 원종양유전자, 비수용체 티로신 키나제(SRC), 혈청 반응 인자(SRF) 및 마이오카딘(MYOCD)의 더 높은 발현이 다른 세포와 비교하여 LMS에서 확인되었습니다. 육종의 아형 6 . 염색체 1, 4, 16 및 18의 단편 손실은 LMS 7,8의 비교 게놈 혼성화에서도 보고되었습니다. LMS에서 유전자 발현 수준을 확인하여 치료 옵션을 찾으려는 많은 노력에도 불구하고 수술이 여전히 주요 치료법입니다. 현재 이용 가능한 체계적인 치료법이 이 암에 항상 효과적인 것은 아닙니다. 더욱이 표적 치료가 존재하지 않고 개인 맞춤 의학 접근 방식은 LMS 관리에서 멀리 떨어져 있는 것처럼 보입니다. 이 상황은 전이성 LMS에서 악화됩니다. 다른 암에서는 환자의 예후를 추정하는 것이 적절한 치료를 결정하는 데 도움이 됩니다 9,10 . 그러나 LMS 환자의 생존에서 유전자 발현의 영향을 보고한 연구는 드뭅니다 11 .

LMS 유전자 발현에 대한 대부분의 조사는 차등 발현 유전자(DEG)를 사용했습니다. DEG는 높은 처리량 데이터에서 중요한 정보를 이끌어내지만 몇 가지 제한 사항이 있습니다. 실제로 DEG 분석에서는 개별 유전자가 식별되므로 유전자 간의 상호 작용은 무시됩니다. 즉, DEG는 수천 개의 유전자의 발현과 구성을 동시에 인식하지 못합니다. 유전자 발현은 고도로 규제되며 세포 12에서 공동 발현 네트워크의 패턴을 형성합니다. 대부분의 경우 발암은 여러 유전자의 탈조절의 결과가 아니라는 가설이 있습니다. 그것은 규제 네트워크 13에서 유전자 사이의 미묘한 상호 연결과 같은 복잡한 메커니즘의 결과입니다. 이러한 패턴을 배우는 것은 단순한 DEG로 얻을 수 없는 암 관련 연구에서 중요합니다. 우리가 아는 한, 최근 몇 년 동안 유전자 상호 작용 네트워크를 기반으로 하는 비자궁 평활근육종(NULMS)에 초점을 맞춘 연구는 없습니다. 그러나 모든 유형의 LMS를 함께 조사한 연구가 발표되었습니다 14 .

가중 유전자 동시 발현 분석(WGCNA)은 시스템 생물학 접근 방식을 제공하는 일반적인 프레임워크입니다. WGCNA를 적용하여 유전자 네트워크 레벨 15에서 세부적인 특성을 조사했습니다. 이 프레임워크는 다양한 암 및 비암 질환을 연구하는 데 성공적으로 활용되었습니다.

이 논문에서 저자들은 WGCNA 알고리즘을 시스템 생물학 방법으로 활용하여 NULMS 생존에 영향을 미치는 중요한 동시 발현 유전자와 허브 유전자를 식별했습니다. 결국, 유전자 온톨로지를 통해 환자의 재발과 관련된 기능, 세포 구획 및 경로를 조사했습니다. 이 연구는 RNA 시퀀싱 데이터를 사용하여 공동 발현 네트워크를 구축하여 NULMS 예후 유전자에 대한 이해를 높이는 데 목적이 있습니다.


재료 및 방법

데이터 세트

TCGA 데이터베이스의 여러 데이터 세트가 두 방법을 모두 검증하기 위해 선택되었습니다(Weinstein et al., 2013).

30개 이상의 건강한 샘플(TCGA 데이터베이스에서 “Solid Tissue Normal”로 표시됨) 이상을 포함하는 데이터 세트만 선택되었습니다. HTSeq에서 생성된 모든 읽기 수와 임상 데이터는 TCGABiolinks R/Bioconductor 패키지와 함께 다운로드되었습니다(Colaprico et al., 2015).

선택된 데이터 세트는 Table ​ Table1 1에 요약되어 있습니다.

1 번 테이블

이 연구에 사용된 TCGA 데이터 세트.

이름암 유형N (종양)N (건강한)평균 연령연령대
TCGA-BRCA유방 침윤성 암종1,09711359.0726-90
TCGA-LUAD폐 선암5825966.8833-88
TCGA-UCEC자궁체부 자궁내막암5593564.2431-90
TCGA-KIRC신장 신장 투명 세포 암종5357261.1626-90
TCGA-HNSC두경부 편평 세포 암종5284461.1420-90
TCGA-THCA갑상선암5075846.9215-89
TCGA-LUSC폐 편평 세포 암종5044968.6639-90
TCGA-프라드전립선 선암종4985261.9942-78
TCGA-COAD결장 선암종4604168.8831-90
TCGA-스타드위 선암종4433267.5630-90
TCGA-LIHC간 간세포 암종3775061.5316-88
TCGA-KIRP신장 신장 유두 세포 암종2913262.0328-88

방법론

각 데이터 세트에 대해 그림 ​ 그림 1 1에 설명된 방법론이 적용되었습니다.

연구 설계: 방법론을 설명하는 다이어그램.

모든 샘플은 DESeq2 소프트웨어 패키지로 정규화되며, 기본 워크플로 매개변수와 htseq-카운트 도구(즉, 다음 R 기능: DESeqDataSetFromHTSeqCount, EstimateSizeFactors, 개수 이랑 정규화 인수 설정 진실) DESeq2의 참조 매뉴얼(Love et al., 2014)에 설명된 대로.

샘플은 훈련 세트와 검증 세트로 나뉩니다. 훈련 세트에는 원래 데이터 세트의 모든 정상 샘플이 포함됩니다(N) 및 건강한 샘플과 동일한 수의 종양 샘플(N). 유효성 검사 세트에는 나머지 종양 샘플(엔 – 엔).

기본 매개변수와 옵션을 사용하여 DESeq2 소프트웨어 패키지로 훈련 세트에서 미분 표현 분석을 수행합니다. 조정된 유전자를 기반으로 한 유전자 순위 NS-미분 표현 테스트에 대한 상대적인 값을 얻습니다.

랜덤 포레스트 분류기는 100,000개의 트리와 미디엄노력하다 매개변수 236(Wright and Ziegler, 2015의 총 특성 수의 제곱근과 동일). 순열 중요도 값을 기반으로 하는 유전자의 순위를 얻습니다(순열 중요도는 관심 특징의 값을 무작위로 순열하고 결과적인 오류 증가를 측정하여 계산됨).

EPS 방법(Extreme Pseudo-Sampling 섹션 참조)은 유전자 순위를 추출하기 위해 훈련 세트에 적용됩니다.

허락하다 RF 랜덤 포레스트 기반 유전자 순위를 나타내며, 차등 발현 기반 유전자 순위 및 주당 순 이익 극단적인 유사 샘플 기반 유전자 순위. RFNS 를 나타냅니다 NS- 랜덤 포레스트 기반 유전자 순위의 -번째 유전자. 비슷하게, NS 를 나타냅니다 NS- 차등 발현 기반 유전자 순위의 th 유전자 및 주당 순 이익NS 를 나타냅니다 NS- EPS 기반 유전자 순위의 -번째 유전자.

두 순위 모두에 대해 증분 수의 유전자를 포함하여 20개의 유전자 서명이 생성됩니다. 허락하다 시그 RFNS 표시하다 NS- 랜덤 포레스트 순위를 기반으로 한 th 유전자 시그니처, 시그데NS 표시하다 NS- 차등 발현 순위에 기초한 th 유전자 시그니처 및 시그EPSNS NS NS- EPS 순위를 기반으로 한 유전자 서명. 서명은 공식적으로 다음과 같이 정의됩니다.

◦ Cox 비례 위험 모델은 서명의 모든 유전자를 사용하여 구축되었습니다.

◦ 검증 세트의 샘플은 Cox 비례 위험 모델의 중앙값에 따라 두 그룹(높은 생존 및 낮은 생존)으로 분할되었습니다.

두 그룹의 생존을 비교하기 위해 로그 순위 테스트가 수행되었습니다.

각 데이터 세트에 대해 다중 공선성이 RF 기반 방법의 성능에 역할을 하는지 평가하기 위해 가장 많이 발현된 50% 유전자의 발현 값 사이의 상관 계수가 계산되었습니다. 다중 공선성은 이러한 각 기능과 모델 출력 간의 관계가 비독립적 기능 간의 관계에 의해 영향을 받는 비독립적 기능의 존재를 나타냅니다. 50%가 가장 많이 발현된 유전자를 사용하여 모든 샘플의 계층적 클러스터링도 수행되었습니다. 두 방법의 유전자 목록에 대해 농축 분석을 수행했습니다.

두 목록의 각 최상위 유전자와 가장 많이 발현된 50% 유전자 사이의 상관 계수가 각 데이터 세트에 대해 계산되었습니다.

전 세계적으로 모든 암 유형의 5년 전체 생존율과 제시된 방법의 성능 사이의 상관관계가 계산되었습니다.

모든 데이터 세트에 대해 얻은 각 유전자 순위에 대해 다음을 사용하여 유전자 세트 농축 분석을 수행했습니다. ConsensusPathDB 온라인 도구(Kamburov et al., 2012).

극단적인 의사 샘플링

이 연구에서 고려되는 대부분의 데이터 세트에서 두 클래스의 샘플이 고차원 공간에 상주하며 선형 분류기가 이들을 전혀 분리할 수 없도록 밀접하게 함께 조정된다는 점은 주목할 가치가 있습니다. 샘플의 총합에 비해 정규 샘플의 수가 적기 때문에 이러한 클래스 구성원 통계의 불균형으로 인해 편향을 받는 경향이 있는 선형 분류기의 실패에 기여합니다.

우리는 두 가지 문제를 모두 해결하기 위해 차원 축소 기술을 사용하기로 결정했습니다. 차원의 저주 이러한 샘플이 선형으로 분리 가능한 부분 공간에 있는 표현을 찾습니다.

자동 인코더는 PCA와 같은 선형 대응물보다 이러한 잠재 표현을 더 잘 생성할 수 있는 것으로 나타났습니다(Tan et al., 2014 Danaee et al., 2017). 그러나 이러한 표현은 주로 비선형 활성화 기능으로 인해 유전자에 대한 유용하고 실행 가능한 지식을 제공하지 않습니다.

게다가 Normal Autoencoder는 생성적이지 않습니다. 즉, 분류 목적으로 유용한 잠재 표현을 생각해 낼 수는 있지만 잠재 표현 값을 약간 수정하고 결과를 디코더 네트워크에 공급하여 실제 샘플과 유사한 새 샘플을 생성할 수 없습니다. .

그러나 Variational Autoencoder라고 하는 새로운 유형의 Autoencoder는 이 작업에 성공할 수 있습니다(Kingma and Welling, 2013). VAE는 생성 모델이라는 점에서 다른 AE와 근본적으로 다릅니다.

각 포인트 NS 실제 공간에서 배포와 관련될 것입니다. P(z|x). 이 방법론의 목적을 위해 이 분포를 정규 분포로 가정했습니다. 잠재 표현 얻기 1 샘플에서 NS1따라서 분포에서 표본을 추출하는 것과 같습니다. N(μ1, σ1), 여기서 μ1, σ1 훈련 데이터에서 학습됩니다.

훈련 VAE는 각각 30,000, 15,000, 10,000, 2,000, 500, 2,000, 10,000, 15,000, 30,000개의 퍼셉트론을 갖는 9개의 레이어로 구성됩니다. 이러한 계층의 훈련 과정에는 약 50억 개의 매개변수를 미세 조정해야 합니다. 이 미세 조정 프로세스의 성능이 샘플 수에 따라 증가한다는 점을 감안할 때 연구된 TCGA 데이터 세트에서 추출한 훈련 세트 외에도 11개의 다른 훈련 세트에서 샘플을 무작위로 선택하여 VAE 훈련 프로세스에 사용합니다.

훈련 단계 후 각 데이터 세트 NS 잠재 표현으로 변환됩니다. . 이러한 잠재 표현을 통해 테스트 및 훈련 데이터 세트 모두에 대해 거의 100% 정확도로 정상 샘플과 암 샘플을 선형으로 분리할 수 있습니다. 선형 분리기를 고려하여 분리기의 양쪽에서 가장 인구가 많은 영역을 표시합니다. N 선형 분리기의 법선 측 및 암 측면을 위해. 점을 생각해보면 N 이 영역 중 하나에서 분포에서 무작위로 추출되었다는 것을 알고 있습니다. N(μN, σN).

선택하는 동안 N 한 번은 임의의 프로세스입니다. N 모든 분포에서 추출되어 ẋ 재구성NNSN ~에서 N 디코더에 의해 수행되는 결정적 프로세스입니다. 그러나, 가까운 모든 지점에서 N 동일한 분포에서 추출할 수 있습니다. 디코더의 결정론적 기능으로 인해 이러한 각 지점은 결국 서로 다른 ẋ를 생성하게 됩니다.N. 다르지만 가능한 모든 ẋN 원본과 유사해야합니다 NSN 밀접하게 그리고 또한 모든 항목의 일반적인 통계적 특성을 따라야 합니다. NS데이터세트에 있습니다.

그런 다음 영역에 400개의 임의의 점을 그렸습니다. N 및 C 잠재 공간의 , 선형 분리기의 양쪽에 있고 암성 클래스와 정상 클래스 모두의 새로운 “virtual” 또는 “pseudo” 샘플을 생성했습니다. 이 프로세스를 EPS(Extreme Pseudo Sampling)라고 합니다. 그려진 무작위 포인트의 양(400)은 훈련 데이터에 대한 교차 검증을 사용하여 선택되었습니다. 성공적인 회귀 프로세스로 끝나는 가장 작은 수의 샘플이었습니다.

실제 샘플은 선형 분리기를 사용하여 나눌 수 없고 클래스 구성원 수의 불균형으로 인해 어려움을 겪지만 과장된 암/정상 기능으로 인해 실제 공간에서 선형으로 나눌 수 있는 새로운 유사 샘플을 생성할 수 있었습니다. 이 샘플의 개수도 동일합니다. 후자의 특성을 사용하면 분할 회귀선이 특정 클래스에 덜 편향될 수 있습니다. 따라서, 상기 회귀선은 두 클래스에서 동일한 거리를 유지합니다.

마지막으로, 이 과정에서 모든 샘플 특성이 정규화되었으므로 라인 공식의 가중치 계수는 극단적인 의사 샘플을 분류하기 위한 중요도 요소로 변환될 수 있습니다. 계수가 클수록 관련 특성이 클래스 구성원을 결정하는 데 더 중요합니다. 이를 통해 각 데이터 세트에서 모든 유전자에 대한 중요도 순위를 추출할 수 있습니다.

앞서 언급한 분석을 수행하는 데 사용된 R 및 Python 스크립트는 온라인에서 사용할 수 있습니다. https://github.com/stephwen/ML_RNA-Seq & https://github.com/roohy/Extreme-Pseudo-Sampler

성능 및 안정성 조치

랜덤 포레스트 기반 방법과 EPS 방법은 모두 비결정적이며 본질적으로 큰 샘플 크기의 이점이 있습니다.

이 두 가지 방법으로 생성된 유전자 순위의 안정성과 더 작은 샘플 크기의 영향을 평가하기 위해 다음 두 가지 접근 방식을 사용했습니다.

먼저 각 TCGA 데이터 세트에 대해 방법론 섹션에 설명된 완전한 방법론을 10회 수행하여 유전자 순위의 안정성을 테스트했습니다. 가장 높은 순위의 유전자에 중점을 두고 각 데이터 세트에 대해 10번의 반복에서 상위 20개 유전자 사이에서 공통적인 유전자 수를 계산했습니다. 또한 각 데이터 세트에 대해 이러한 10회 반복에 걸쳐 방법론의 초기 실행에서 보고된 각 유전자 순위의 평균 및 표준 편차를 계산했습니다.

둘째, 모든 샘플의 20%만 무작위로 선택하여 방법론 섹션에 설명된 방법론을 수행했습니다(가장 작은 데이터 세트에 대해 최소 20개의 정상 샘플 포함). 그런 다음 방법론 섹션에 설명된 대로 두 가지 지도 학습 기반 방법의 성능을 DESeq2와 비교했습니다.

결정론적 단변량 유전자 선택 방법에 비해 지도 학습 방법의 이점을 추가로 평가하기 위해 각 유전자의 절대 배수 변화의 크기를 기반으로 각 데이터 세트에 대한 유전자 순위를 추출했습니다. 방법론 섹션에 설명된 생존 중심 방법론은 fold-change 기반 유전자 순위에 적용되어 20 NS-로그 순위와 비교된 값 NS- 세 가지 다른 방법론으로 얻은 값.


논의

이 연구에서 우리는 이전에 확립된 암 특징 유전자 5의 예후적 중요성을 조사했습니다. 생존 분석을 위해 임상 주석이 있는 26개 종양 유형의 9720명의 환자를 포함하는 TCGA의 RNA-seq 데이터베이스를 활용했습니다. 신장 투명 세포 암종, 저등급 신경교종 및 흑색종은 생존과 상관관계가 있는 암 특징 유전자의 비율이 가장 높았습니다. 계층적 클러스터링 분석은 침습 및 전이 활성화, 게놈 불안정성, 지속적인 증식 신호 및 세포 에너지 규제 완화와 관련된 일부 암 특징 유전자가 함께 클러스터된 것으로 나타났습니다(거리는 각 종양 유형의 특징당 중요한 유전자의 백분율을 기반으로 함).

주어진 특징과 관련된 암 유전자의 평균 발현 수단을 기반으로 각 특징에 대한 전사체 대리 서명도 결정되었습니다. 이러한 요인의 예후적 중요성은 다양한 유형의 암에서 조사되었습니다. 8가지 주요 특징 중 종양유전자 활성화, 게놈 불안정성, 세포 에너지, 침습 및 전이, 세포 사멸 저항성과 관련된 특징은 최소 5가지 종양 유형에서 유의미했습니다.

이 분석에서 과발현이 예후를 악화시키는 유전자와 손실이 예후를 악화시키는 유전자를 단순히 평균화하지 않았다는 점을 언급하는 것이 중요합니다. 오히려, 우리는 단일 암 특징과 연결된 미리 선택된 유전자 세트를 사용합니다. 따라서 유전자의 평균이 아니라 상대적인 변화가 최종 분류에 영향을 미칩니다. 단일 특징 내에서 우리는 유전자 사이에 완전한 음의 또는 양의 상관 관계가 있을 것으로 기대하지 않으며 그들의 평균은 특징의 전체 활동을 대표할 것입니다.

이 접근법은 많은 유전자가 역 발현 패턴을 가지고 있다는 관찰에 의해 뒷받침됩니다. 절대 유전자 발현 수준과 관련하여 음의 상관 관계가 있습니다. 예를 들어, CDKN2A 및 CCND1의 경우 이는 여러 연구 14,15,16,17에서 관찰되었습니다. 음의 상관관계가 있는 경우, 한 유전자의 발현이 높을수록 예후가 나빠지고 다른 유전자의 발현이 낮을수록 예후가 나빠지는 유전자를 정확히 조합해야 합니다. 이들을 단일 서명으로 결합하면 결합된 효과를 감지하는 전체 능력이 증가합니다. 각 암 특징에 관련된 많은 수의 유전자 때문에 우리는 결합된 시그니처가 만족스럽게 강력하다고 믿습니다. 참고로, 이 문제는 다른 유전자가 다른 종양 유형에서 생존과 다른 상관관계를 갖는다는 사실로 인해 복잡합니다. 예를 들어 CDKN2A와 CCND1 모두 노화 섬유아세포 18에서 발현이 증가했습니다.

종양유전자는 종양 형성 동안 세포 증식, 분화 및 생존의 조절에 중요한 역할을 합니다. c-MYC는 인간 Burkitt 림프종 19에서 염색체 전위에 의해 활성화되는 최초의 특성화된 종양 유전자였습니다. 변경된 c-MYC 유전자의 발현은 종양 세포에서 증가하고 광범위한 세포 증식과 연관되어 종양 발달에 기여합니다. c-MYC 발현과 환자 생존 사이의 연관성은 여전히 ​​논란의 여지가 있으며 19, 우리는 c-MYC 발현이 높은 환자에서 더 나쁜 예후를 관찰했습니다. 유방암의 진행 및 Wnt-β-카테닌 경로에서 유전자의 더 높은 발현과 관련된 세포 표면 단백질 티로신 키나제 수용체를 암호화하는 ERBB2 유전자의 경우에도 유사한 결과가 나타났습니다. 이 경로는 결장직장암 21의 85% 이상에서 돌연변이됩니다. β-카테닌(CTNNB1)은 가장 빈번하게 변이되는 유전자로, 대장암의 80% 이상에서 검출될 수 있습니다. 또한, CTNNB1의 높은 발현은 결장직장암 21에서 더 짧은 생존과 관련이 있습니다. 마지막으로, 사이클린 계열의 구성원인 사이클린 D1(CCND1)의 과발현도 식도 편평 세포 암종의 빈약한 생존율과 상관관계가 있었습니다 22.

염색체 불안정성(CIN)과 미세위성 불안정성(MSI)은 인간 암 4에서 게놈 불안정성의 두 가지 주요 유형입니다. 게놈 불안정성 관련 유전자의 발현은 원발성 종양 23보다 전이성 샘플에서 더 높습니다. 유방암에서 Habermann et al. 유전자 발현, 게놈 불안정성 및 임상 결과 사이의 상관관계를 조사하는 유전자 발현 프로파일링을 수행하고 24 임상 결과의 독립적인 예측 인자인 12개 유전자 이수성 특이적인 특징을 확인했습니다. 우리의 분석에서 게놈 불안정성에 기여하는 150개의 유전자로 구성된 전사체 서명은 8개의 종양에서 예후를 보였습니다. 이들 중, 높은 서명 발현은 저등급 신경교종, 간암, 신장 유두암, 폐 선암종 및 육종에서 불량한 생존과 관련이 있었다. 자궁 경부암, 신장 투명 세포 암종 및 흉선종에서 특징적인 특징의 높은 발현은 유리한 결과와 상관 관계가 있습니다.

변경된 에너지 대사는 해당과정의 증가와 제한된 산화적 인산화를 포함합니다. 증식하는 암세포의 이러한 기능은 구성적 세포 성장 및 증식 4 을 추진하는 데 도움이 되는 거대분자의 보유를 가능하게 합니다. 수많은 대사 경로 관련 유전자 중에서 GLUT1, G6PD, TKTL1 및 PGI/AMF의 높은 발현은 유방암 25의 감소된 생존과 유의하게 상관관계가 있습니다. FAS 유전자는 유방암(26), 위(27) 및 전립선암(28)을 비롯한 여러 암에서 초기 단계에서 상향조절되며, 그 발현은 불량한 생존율과 양의 상관관계가 있습니다. 우리의 결과는 암 대사 관련 유전자의 전사체 시그니처의 높은 발현이 급성 골수성 백혈병, 두경부암, 유방암, 폐 선암종 및 흑색종의 생존 감소와 관련이 있음을 보여줍니다. 그러나 신장 투명 세포 암종, 신장 유두암 및 저등급 신경교종에서는 시그니처의 높은 발현이 더 나은 결과와 관련이 있었습니다.

상피 - 중간 엽 전환 (EMT)은 암 4의 발달 및 전이에 필수적인 세포의 이동 및 침습 능력에 기여하는 다단계 과정입니다. 유방암 및 두경부암을 포함한 많은 유형의 암에서 Notch와 같은 발달 EMT 경로가 조절되지 않는 것으로 보고되었으며 이러한 경로의 활성화는 종종 불량한 생존율 29과 관련이 있습니다. EMT의 억제는 췌장 종양에서 뉴클레오시드 수송체의 발현 증가와 함께 세포 증식의 증가를 초래합니다. 이러한 변화는 젬시타빈 치료에 대한 민감도를 높이고 마우스 30에서 전체 생존을 증가시킵니다. EMT의 중요성은 종양 침습 및 전이 활성화 관련 유전자 5의 전사체 시그니처가 가장 많은 수의 종양에서 예후적 의미를 갖는다는 우리의 관찰에 의해 뒷받침됩니다. 종양 중 시그니처의 높은 발현은 저등급 신경교종, 간암, 급성 골수성 백혈병, 자궁경부암, 두경부암, 췌장암, 방광암 및 폐 선암종에서 낮은 생존 결과와 관련이 있었습니다.

세포 사멸에 대한 암세포의 저항은 항 세포 사멸 단백질의 상향 조절과 세포 사멸 촉진 단백질의 하향 조절을 포함하는 암 발달의 근본적인 측면입니다 31. apoptotic 유전자의 유전자 발현 특징 연구의 수는 제한되어 있으며 연구는 더 일반적으로 단일 apoptotic 유전자를 반영합니다. Holleman et al. 마이크로어레이 유전자 발현 연구를 수행하여 급성 림프모구성 백혈병(ALL)에서 70개의 주요 세포사멸 유전자의 발현 패턴을 조사하고 백혈병 하위유형이 세포사멸 유전자의 독특한 발현 패턴을 갖고 선택 유전자가 세포 약물 내성 및 예후와 관련이 있다는 결론을 내렸습니다. 어린 시절 B 계통 ALL 32 . 또 다른 연구에서는 골수종 세포의 외인성 및 내인성 경로에 관여하는 40개의 유전자를 조사했으며, 이 유전자는 불량한 예후와 관련이 있으며 정상 형질모세포 33에서 과발현되었습니다. 우리 연구에서 119개 유전자 34,35 세트를 기반으로 한 세포 사멸 저항 신호는 간 및 췌장암의 낮은 생존율과 흑색종, 신장 투명 세포 암종, 유방암 및 갑상선암의 양호한 생존율과 관련이 있습니다.

간단히 말해서, RNA-seq 기반 전사체 데이터를 사용하여 26가지 다른 유형의 암에 대한 생존 분석을 수행했습니다. 놀랍게도, 암 특징 유전자로 구성된 시그니처는 생존과 종양 유형별 상관관계를 보여주었습니다. 10개 이상의 암 유형에서 예후적 중요성을 나타내는 개별 암 특징 유전자도 밝혀졌습니다. 이러한 결과는 각 종양 유형에서 약물 개발에 가장 관련성이 높은 특징을 우선적으로 표적화하는 데 도움이 됩니다.


FPKM은 HTSeq 1에 의해 생성되고 사용자 지정 스크립트 2를 사용하여 생성되는 유전자 수준 읽기 수에 대해 GDC에서 구현됩니다. FPKM 값을 생성하는 데 사용되는 공식은 다음과 같습니다.

  • NSNS: 해당 유전자에 매핑된 read 수
  • NSNS: Alignment에서 protein-coding sequence에 매핑된 총 read 수
  • L: 염기쌍의 유전자 길이

데이터를 "로 정규화하기 위해 스칼라(10 9 )가 추가됩니다.킬로 베이스"와 "백만 매핑된 읽기."

HTSeq - count 파일과 마찬가지로 FPKM 파일은 첫 번째 열에 Ensembl 유전자 ID가 있고 두 번째 열에 표현 값이 있는 탭으로 구분된 파일로 사용할 수 있습니다. 유전자 발현 수준 정규화의 대체 방법은 HTSeq-FPKM-UQ를 참조하십시오.


유전자 하위 집합의 분석에 RNAseq 데이터의 재정규화가 권장됩니까?

TCGA 데이터베이스에서 RNAseq 데이터 세트를 3가지 형식으로 다운로드했습니다. 1) HTSeq 카운트 2) FPKM 3) FPQM-upper quartile normalized.

전체 데이터세트에는 다음이 포함됩니다.

60,000개의 유전자. 내 모든 분석은

나를 혼란스럽게 한 것은 TCGA 문서 페이지에 있는 다음 문장입니다. "HT-Seq에 의해 생성된 RNA-Seq 발현 수준 읽기 수는 FPKM 및 FPKM-UQ의 두 가지 유사한 방법을 사용하여 정규화됩니다. 정규화된 값은 컨텍스트 내에서만 사용해야 합니다. 전체 유전자 세트입니다. 사용자는 유전자의 하위 집합을 조사하는 경우 원시 읽기 수 값을 정규화하는 것이 좋습니다."

나머지와 분리하여 2500개의 유전자 수를 정규화하면 전체 유전자 세트를 사용하는 것보다 샘플 간에 정규화 요소가 더 불안정할 것이라고 추측합니다. 이는 한 환자가 다른 환자보다 하위 집합의 발현이 더 높은 경우 하위 집합 내에서 정규화하면 그 차이를 모호하게 할 수 있음을 의미합니다.

그러나 정규화 인자(전체 매핑된 읽기 또는 상위 사분위수)는 고려되는 유전자의 수가 많을수록 더 안정적입니다. 기술적 차이가 정상화되는 동안 생물학적 차이로 인해 전 지구적 규모에서 더 적은 변동이 나타날 것입니다.

요컨대, 유전자의 하위 집합만 분석하면 유전자 수를 새로이 정규화합니까? 왜요?


발행인의 메모 Springer Nature는 출판된 지도 및 기관 제휴의 관할권 주장과 관련하여 중립을 유지합니다.

확장 데이터 그림 1 10가지 흑색종 배양물의 표현형 및 기능적 특성화.

NS, 9개의 환자 유래 MM 계통과 세포주 A375를 단일 10x Chromium 레인으로 다중화한 다음 SNP를 사용하여 컴퓨터 역다중화했습니다. NS, 각 기준선 흑색종 배양물에 대해 표시된 각 세포 주기 단계 내의 세포 분획을 나타내는 원형 차트. , t-SNE는 세포주 기원에 따라 클러스터링된 세포를 표시합니다(왼쪽). 각 배양물에는 G2M 체크포인트 유전자 서명 활성(Hallmark 중간)에 따라 채색된 t-SNE 플롯에 표시된 높은 세포 주기 활성을 갖는 세포의 하위집단이 있습니다. 에 따라 착색된 t-SNE TFAP2A 그리고 TFAP2B 표현식은 모든 MM 라인이 TFAP2A A375 세포주는 TFAP2B (오른쪽). NS, 히트맵은 AUCell로 측정한 각 세포(열)의 유전자 서명(행)의 활성을 보여줍니다. 감독되지 않은 계층적 클러스터링은 멜라닌 세포 및 색소 침착 관련 시그니처 대 중간엽 유사(비분화, 신경 능선 유사, 면역 유사) 및 저항 관련 시그니처의 대조 활성을 기반으로 두 그룹이 형성됨을 보여줍니다. n=4,322.

확장 데이터 그림 2 단일 셀 및 대량 마이그레이션의 상관 관계 분석.

NS, 유의미한 상관관계를 보여주는 단일 셀(x축에 세 개의 변수) 및 대량(y축) 마이그레이션 데이터의 산점도. 점선은 적합된 선형 회귀선을 나타냅니다. 음영 영역은 0.95 신뢰 구간(n=9)을 표시합니다.

확장 데이터 그림 3 GRN 추론으로 식별된 레귤론.

NS, 각 상태에 대한 상위 20개 regulons가 추출되고 AUCell 값(Z-점수)이 상자 플롯에 표시됩니다. 멜라닌 세포 상태에 대한 HES6 레귤론 NFATC2, EGR3, ETV4, ELF1 및 SOX6 레귤론 중간 상태 및 중간엽 유사 상태에 대한 FOSL2, JUN 레귤론은 다른 상태에 걸쳐 뚜렷한 AUCell 값을 갖습니다. 상자 도표는 중앙값을 중심선으로 표시하고 상한 및 하한 사분위수를 상자 한계로 표시합니다(n=100 런 점은 필터링된 규칙론을 나타냄). NS, 반복적으로 관찰되는 21개의 전사 인자(n=4,322)에 대한 각 세포 및 결과 Spearman 상관 계수에 대한 해당 모티프 및 트랙 기반 레귤론에 대한 AUCell 값의 산점도. , 각 세포에 대한 해당 트랙 및 모티프 기반 레귤론에 대한 AUCell 값의 산점도 및 나머지 전사 인자에 대한 결과 Spearman 상관 계수(n=4,322). NS, 모티프 및 트랙 기반 MITF 레굴론 활성에 대한 바이올린 플롯은 극단적인 멜라닌 세포에서 중간 배양으로 점진적인 감소를 나타내는 10개의 흑색종 배양에 대해 표시됩니다. 바이올린 플롯은 세포 밀도를 모양으로 표시하고 세포를 점으로 표시합니다(n=4,322).

확장 데이터 그림 4 흑색종 문화의 염색질 풍경.

NS, 멜라닌 세포 영역(n=6,669) 및 중간엽 유사 영역(n=13,453)에서 정규화된 ATAC-seq 신호는 이전에 확인된 바와 같이 4 멜라닌 세포 및 중간 배양의 멜라닌 세포 영역에서 염색질 접근성이 더 높고 중간엽 유사 영역에서는 염색질 접근성이 낮습니다. 그 반대. NS, 이전에 ChIP-seq에 의해 식별된 바와 같이 SOX10-, FOS- 및 JUND-결합 영역의 정규화된 ATAC-seq 신호는 중간엽 유사 및 멜라닌 세포 배양 사이의 SOX10-결합 영역의 대조 염색질 접근성과 AP에서 점진적으로 감소된 접근성을 보여줍니다. -1 관련 영역(FOS 및 JUND)은 중간엽 유사에서 중간에서 멜라닌 세포 배양으로 이동합니다. , 정규화된 ATAC-seq 신호 IRF2 (왼쪽 상단), FN1 (맨 위 오른쪽), SOX9 (왼쪽 하단) 및 NFC2 (오른쪽 하단) 유전자 좌위는 극단적인 멜라닌 세포 배양에 비해 중간 및 중간엽 유사 배양에서 더 높은 접근성을 보여줍니다.

확장 데이터 그림 5 생검의 scRNA-seq 코호트에서 흑색종 상태.

NS, AUCell 이진화 절차의 시각화는 레굴론의 AUCell 점수로 착색된 t-SNE(상단), 임계값이 빨간색 선으로 표시된 AUCell 히스토그램(가운데) 및 AUCell 이진화 후 착색된 t-SNE(하단)를 보여줍니다. 악성 세포는 왼쪽 상단 t-SNE에 둘러싸여 있습니다. NS, SOX11 및 TFAP2B 레귤론으로 착색된 t-SNE를 보여주는 AUCell 이진화 절차의 시각화. 회색 화살표는 두 레귤론에 대해 높은 AUCell 점수를 갖는 클러스터를 나타냅니다. , 더 높은 MITF 임계값(모티프 및 트랙 기반 규칙)에 대한 AUCell 이진화의 시각화. MITF 레굴론 활성이 가장 높은 세포는 HES6 레굴론 활성이 높은 세포에 해당합니다(패널 참조 NS).

확장 데이터 그림 6 흑색종 생검 scRNA-seq 코호트의 확장 분석.

NS, 중간 레귤론에 대한 AUCell 값의 산포도는 Jerby-Arnon 등의 흑색종 생검에서 서로에 대해 표시됩니다. (2018) 46 . 파란색 선은 적합된 선형 회귀선을 나타냅니다. NS, 이 생검 코호트의 샘플에 대한 무작위 규칙론과 비교한 실제 규칙론 간의 피어슨 상관 계수의 상자 플롯. 실제 레귤론 간의 상관 관계는 빨간색 점으로 표시됩니다. 상자 그림은 중앙값을 중심선으로 표시하고 상한 및 하한 사분위수를 상자 한계로 표시합니다. , 이러한 흑색종 생검에서 다른 악성 세포와 비교하여 중간 세포에 대한 GSEA. 유전자는 로그에 따라 순위가 매겨졌습니다.2- 높은 중간 레굴론 활성 대 낮은 중간 레굴론 활성을 갖는 세포의 차등 유전자 발현 분석 후 변형된 배수 변화 값(결합된 SOX6, NFATC2 및 EGR3 레굴론 기반). 유전자 세트 이름, 정규화 농축 점수(NES) 및 FDR BH 조정 p-값이 각 유전자 세트에 대해 표시됩니다. n=2,018.

확장 데이터 그림 7 SOX10의 KD 후 전사체의 표현형 및 기능적 특성화.

NS, SOX10의 KD 후 scRNA-seq의 실험적 설정. NS, 동일한 3개의 MM 라인(MM074, MM087 및 MM057 WB는 한 번 수행됨)에서 SOX10(동일한 시점)의 KD 후 SOX10에 대한 웨스턴 블롯 및 대조군으로서 GAPDH. , SOX10의 KD 후 상이한 시점과 함께 기준선 및 대조군 KD 조건에서 MM074, MM087 및 MM057에 대한 상이한 세포 주기 단계의 세포 분획을 보여주는 파이 차트. NS, 다른 방법을 사용하여 전환 궤적의 비교 정렬. DiffusionMap, Scorpius 및 Monocle-2에 의해 예측된 궤적은 cellAlign을 사용하여 동적 시간 왜곡을 적용하여 정렬되었으며 예측된 최적 정렬은 흰색 선으로 표시됩니다. 다른 방법 간의 일치도가 높습니다.

확장 데이터 그림 8 SOX10의 KD 후 동적 흑색종 GRN.

흑색종 GRN(그림 4)은 SOX10의 KD 이후 다양한 시점에 대해 MM074, MM087 및 MM057의 발현에 의해 착색되었습니다(z-점수 집합체 계수 TF 라벨은 그림 4에 표시됨).

확장 데이터 그림 9 흑색종 문화 전반에 걸친 반복적인 전환 궤적.

NS, 의사 시간에 따른 각 배양에 대한 SOX10의 KD 후 보간 및 스케일된 유전자 발현은 전사체의 붕괴를 보여줍니다. NS, SOX10의 KD(10x 및 Drop-seq scRNA-seq 기술 모두에 대해) 후 모든 흑색종 배양에 대해 AUCell에 의해 측정된 각 세포(열)의 유전자 서명(행)의 활성이 있는 히트 맵은 세포의 반복적인 하향 조절을 나타냅니다. 주기 및 멜라닌 세포 전사 프로그램, 세포 이동의 상향 조절, EMT, 암 전이, 면역 세포 활성화, 혈관신생 및 중간엽 유사 신호, 흑색종 TNF 반응, AXL 프로그램 신호 및 후천성 신호와 같은 흑색종 특이적 유전자 세트 BRAF 억제에 대한 내성. 10x와 Drop-seq scRNA-seq 양식 간의 비교는 관찰된 전사 변화의 일관성을 보여줍니다. , NS, 유전자 발현에 대한 삼항 플롯() 및 유전자 서명 활성(NS) SOX10의 KD 후 다양한 관련 하향 및 상향 조절 과정의 흑색종 배양물 사이의 매우 높은 전사 일치를 나타냅니다.

확장 데이터 그림 10 THZ2에 의한 CDK7 억제 후 전사 반응.

NS, THZ1 후에 하향 조절되는 것으로 보고된 114개 유전자 중 104개에 대한 히트 맵은 THZ2 후에도 하향 조절을 나타냅니다(DMSO 처리와 비교하여 나머지 10개 유전자는 필터링 후 매트릭스에 없었음). NS, MM074, MM087 및 MM057에 대한 직접 CDK7 표적의 활성 변화를 보여주는 바이올린 플롯. 바이올린 플롯은 세포 밀도를 모양으로 표시합니다(n=27,163).


결과

COMMD7 범암 및 AML에서의 발현

UCSC XENA(https://xenabrowser.net/datapages/)의 RNA-seq 데이터를 TCGA 및 GTEx 형식으로 다운로드하여 수고한 과정을 통해 균일하게 처리했습니다. 의 표현을 비교하여 COMMD7 TCGA 및 GTEX 데이터베이스의 정상 샘플 및 TCGA 데이터베이스의 해당 종양 샘플, COMMD7 급성 골수성 백혈병(LAML)을 포함한 28가지 유형의 암(도 1A)에서 상당히 높게 발현되는 것으로 밝혀졌습니다(도 1B).

의 더 높은 표현 COMMD7 정상 샘플과 비교하여 AML에서 나타났습니다. (NS) 표현 수준 COMMD7 짝을 이루는 정상 및 범암 샘플에서. (NS) 표현 수준 COMMD7 짝을 이루는 정상 및 AML 샘플에서. 두 그룹 간의 분석: Wilcoxon Rank sum test NS: NS 0.05 이상 * NS < 0.05 ** NS < 0.01 *** NS < 0.001.

저발현 및 고발현된 AML 샘플에서 DEG 식별 COMMD7

고발현 및 저발현 그룹의 유전자 발현 프로파일을 중앙 mRNA 발현의 차이에 대해 분석하였다. 상향 조절된 92개 및 하향 조절된 437개를 포함하여 유전자 발현 RNA-seq-HTSeq-카운트에서 총 529개의 DEG가 다음 사이에서 통계적으로 유의한 것으로 확인되었습니다. COMMD7 고발현 및 저발현 그룹(|로그 배수 변화(logFC)| > 1.5, NS < 0.05)(도 2A). 상위 5개 상향 규제 DEG 및 상위 5개 하향 규제 DEG 사이 COMMD7 고 및 저 표현 그룹은 히트 맵에 의해 설명되었습니다( 그림 2B ).

총 529개의 DEG가 다음 사이에서 통계적으로 유의한 것으로 확인되었습니다. COMMD7 높은 표현 그룹과 낮은 표현 그룹. (NS) 92개의 상향 조절된 유전자와 437개의 하향 조절된 유전자를 포함하여 차등적으로 발현된 유전자의 화산 플롯. 정규화된 발현 수준은 녹색에서 빨간색으로 내림차순으로 표시되었습니다. (NS) 5개의 상향 조절된 유전자 및 5개의 하향 조절된 유전자를 포함하는 10개의 차별적으로 발현된 RNA의 히트 맵. X축은 샘플을 나타내고 Y축은 차별적으로 발현된 RNA를 나타냅니다. 녹색과 빨간색 톤은 각각 하향 조절된 유전자와 상향 조절된 유전자를 나타냅니다.

DEG의 기능 강화 분석

높은 표현과 낮은 표현 사이의 529도의 기능적 의미를 더 잘 이해하기 위해 COMMD7 AML에서 GO 및 KEGG 기능 강화 분석은 clusterProfiler 패키지에 의해 수행되었습니다(보충 표 1, 그림 3). 생물학적 과정(BP)과의 연관성에는 패턴 지정 과정, 지역화 및 중간엽 발달이 포함됩니다. 세포 구성요소(CC)에는 콜라겐 함유 세포외 기질, 이온 채널 복합체가 포함되고 기저막 분자 기능(MF)에는 수용체 리간드 활성, DNA- 결합 전사 활성화제 활성/RNA 중합효소 II 특이적, 세포외 기질 구조 구성요소. KEGG에는 PI3K-Akt 신호 전달 경로, 국소 접착 및 ECM-수용체 상호작용.

고/저 사이 DEG의 GO/KEGG 농축 분석 COMMD7 TCGA-LAML 환자에서 발현. (NS) 𠇋iological process” 카테고리의 풍부한 GO 용어(NS) “m분자 기능” 범주의 GO 용어가 강화되었습니다. () “세포 구성 요소” 카테고리의 강화된 GO 용어(NS) KEGG 경로 주석. X축은 DEG의 비율을 나타내고 Y축은 다른 범주를 나타냅니다. 다른 색상은 다른 속성을 나타내고 다른 크기는 DEG의 수를 나타냅니다.

GSEA 분석은 다양한 AML과 관련된 생물학적 경로에 대한 추가 통찰력을 얻기 위해 수행되었습니다. COMMD7 표현 수준. GSEA는 낮음과 높음 사이에서 수행되었습니다.COMMD7 AML과 관련된 중요한 신호 전달 경로를 식별하기 위한 발현 데이터 세트. 상당한 차이(FDR < 0.05, ADJ NS < 0.05)는 이러한 경로의 MSigDB 컬렉션(C2.all.v7.0.symbols.gmt)의 농축에서 관찰되었습니다(보충 표 2 및 그림 4). 다음과 같은 AML 예후가 좋은 유전자 돌연변이 또는 융합 PML-라라 퓨전, NPM1 돌연변이, AML-ETO 융합, 그리고 CBFB-MYH11 융합, 풍부했다 COMMD7 조정된 NES 기반 저발현 표현형 NS 값 π.05 및 FDR 값 π.05(도 4A – 4D). 반대로 높은 표현력으로 COMMD7 표현형, AML에서 예후가 좋지 않은 요인, 예: FLT3-ITD 융합과 MLL 융합, 상당히 풍부하게 제시됨(도 4I – 4J). AML 및 MAPK, RAS, Hedgehog 및 Wnt 경로와 같은 기타 종양 발달과 관련된 경로도 마찬가지였습니다( 그림 4E – 4H ). 인산화된 TP53 표적 및 MYC 표적과 같은 다른 유전적 변이체도 이러한 표현형이 상당히 풍부했습니다(그림 4K – 4L).

유전자 세트 농축 분석(GSEA)의 농축 플롯. (NS) ES, 농축 점수 NES, 정규화된 ES ADJ NS-val, 조정 NS-값.

AML의 면역 침투 분석

Spearman 상관 분석은 COMMD7 AML 미세 환경에서 SSGSEA에 의해 정량화된 면역 세포 침윤 수준과 상관관계가 있었습니다. 구체적으로 특별히, COMMD7 NK CD56bright 세포 및 활성 수지상 세포(aDC)와 긍정적으로 연관되었습니다(도 5).

의 표현 COMMD7 AML 미세 환경에서 면역 침투와 관련이 있습니다. (NS), 산림 플롯 사이에 양의 상관 관계가 나타났습니다. COMMD7 13개 면역세포와 음의 상관관계 COMMD7 및 11개의 면역 세포 서브세트. 점의 크기는 Spearman r의 절대값을 나타냅니다. (NS) NK CD56(bright) 세포의 상대 농축 점수와 발현 수준(TPM) 사이의 상관관계 COMMD7. () 저-고- 사이의 NK CD56(bright) 세포의 침투COMMD7 표현했다.

AML의 PPI 농축 분석

네트워크 COMMD7 및 잠재적인 동시 발현 유전자 COMMD7관련 DEG는 임계값이 0.4인 STRING에 의해 구성되었습니다(보충 표 3). 총 529개의 DEG가 선별되었습니다( |log fold change(logFC)| ϡ.5, NS < 0.05). 238개의 노드와 367개의 에지를 가진 PPI 네트워크는 Cytoscape-MCODE에 의해 표시되었습니다(그림 6A). MCODE 점수가 7.317인 가장 중요한 모듈에는 42개의 노드와 150개의 에지가 포함되었습니다( 그림 6B ). 한편, Metascape-MCODE는 PPI 네트워크의 조밀하게 연결된 구성 요소를 식별하는 데 사용되었습니다. COMMD7, 보충 그림 1에 나와 있습니다. NS- 값은 해당 구성 요소의 기능 설명으로 보충 표 4에 나와 있습니다.

PPI 네트워크 COMMD7- 관련 DEG 및 가장 중요한 모듈. (NS) DEG의 PPI 네트워크는 Cytoscape를 사용하여 구성되었습니다. (NS) 가장 중요한 모듈은 42개의 노드와 150개의 에지를 가진 PPI 네트워크에서 얻었습니다.

사이의 연관 COMMD7 발현 및 임상적 특징 및 세포유전학적 위험

TCGA에서 AML의 주요 임상적 특징은 Table 1과 같다. 본 연구에서는 총 151예(여자 68명, 남자 83명)를 분석하였으며, 평균 연령은 56.7세였다. 그 중, COMMD7 발현은 76명(50.3%) AML 환자에서 낮았고 나머지 75명(49.3%) 사례에서 높았다. 중앙값 COMMD7 식(log2(TPM+1))인 5.783을 컷오프 값으로 간주했습니다. 상관 분석은 다음과 같이 제안했습니다. COMMD7 발현은 세포유전학적 위험 및 백혈구 수(휐 9 /L)와 유의한 상관관계가 있었습니다(NS < 0.001). 게다가, COMMD7 발현은 골수(BM)를 포함한 다른 요인과 유의하게 연관되었습니다(NS = 0.007), 말초혈액(PB) 아세포(%)(NS = 0.005), FAB 분류(NS = 0.036), FLT3 돌연변이 (NS = 0.004), IDH1 R132 돌연변이(NS = 0.046), 그리고 NPM1 돌연변이 (NS = 0.014).

1 번 테이블

캐릭터수준COMMD7의 낮은 발현COMMD7의 높은 발현NS시험
N 7675
세포유전학적 위험(%)유리한28 (36.8%)3 (4.1%)π.001
중급29 (38.2%)53 (72.6%)
가난한19 (25.0%)17 (23.3%)
FAB 분류(%)M07 (9.2%)8 (10.8%)0.036정확한
M113 (17.1%)22 (29.7%)
M218 (23.7%)20 (27.0%)
M312 (15.8%)3 (4.1%)
M419 (25.0%)10 (13.5%)
M56 (7.9%)9 (12.2%)
M60 (0.0%)2 (2.7%)
M71 (1.3%)0 (0.0%)
세포유전학(%)+86 (8.3%)2 (3.2%)π.001정확한
복잡한12 (16.7%)12 (19.0%)
델 (5)0 (0.0%)1 (1.6%)
델 (7)4 (5.6%)2 (3.2%)
인보이스 (16)8 (11.1%)0 (0.0%)
정상27 (37.5%)42 (66.7%)
티 (1517)8 (11.1%)3 (4.8%)
t (821)7 (9.7%)0 (0.0%)
티 (911)0 (0.0%)1 (1.6%)
성별 (%)여자37 (48.7%)31 (41.3%)0.457
남성39 (51.3%)44 (58.7%)
경주 (%)아시아 사람0 (0.0%)1 (1.4%)0.67정확한
흑인 또는 아프리카계 미국인6 (8.0%)7 (9.5%)
하얀69 (92.0%)66 (89.2%)
FLT3 돌연변이 (%)부정적인14 (18.9%)31 (42.5%)0.004
긍정적 인60 (81.1%)42 (57.5%)
IDH1R132 돌연변이 (%)부정적인3 (4.0%)10 (13.5%)0.046정확한
긍정적 인72 (96.0%)64 (86.5%)
IDH1R140 돌연변이 (%)부정적인8 (10.5%)4 (5.5%)0.369정확한
긍정적 인68 (89.5%)69 (94.5%)
IDH1R172 돌연변이 (%)부정적인2 (2.6%)0 (0.0%)0.497정확한
긍정적 인74 (97.4%)73 (100.0%)
RAS 돌연변이 (%)부정적인5 (6.6%)3 (4.1%)0.719정확한
긍정적 인71 (93.4%)71 (95.9%)
NPM1 돌연변이 (%)부정적인10 (13.2%)23 (31.1%)0.014
긍정적 인66 (86.8%)51 (68.9%)
DNMT3A 돌연변이 (%)부정적인49 (89.1%)43 (79.6%)0.273
긍정적 인6 (10.9%)11 (20.4%)
RUNX1 돌연변이 (%)부정적인46 (83.6%)51 (94.4%)0.124정확한
긍정적 인9 (16.4%)3 (5.6%)
나이(중앙값 [IQR]) 55.50 [44.50,67.00]58.00 [40.50,66.00]0.816비표준
WBC 수(x10^9/L)(중앙값 [IQR]) 11.00 [3.00,32.50]35.00 [8.00,78.00]π.001비표준
BM 폭발(%)(중앙값 [IQR]) 29.00 [5.00,55.75]49.00 [14.00,71.50]0.007비표준
PB 폭발(%)(중앙값 [IQR]) 61.50 [41.75,79.50]77.00 [57.50,86.00]0.005비표준

AML 임상병리학적 요인과 COMMD7 고-저 이분법. 그 결과 높은 표현력 COMMD7 높은 백혈구 수(㸠 × 10 9 /L)와 유의한 양의 상관관계를 보였다(교차비[OR], 3.16 NS < 0.001) 및 높은 PB 폭발(㹰%)(OR, 2.89 NS = 0.002)와 음의 상관관계가 있는 반면 FLT3 돌연변이(OR, 0.32 NS = 0.002) 및 NPM1 돌연변이(OR, 0.34 NS = 0.01) (표 2). 더군다나 잠재적 가치는 COMMD7 AML 환자를 건강한 개인과 구별하는 데 AUC가 0.760인 ROC 곡선 분석을 통해 다음을 확인했습니다. COMMD7 바이오마커로서의 가능성이 있었다(도 7A). 또한 Wilcoxon Rank SUM 테스트를 사용하여 다음 식을 비교했습니다. COMMD7 다른 임상 병리학 적 특징을 가진 환자에서. 그 결과는 COMMD7 BM 아세포가 있는 환자에서 상당히 높게 발현되었습니다(㸠% NS = 0.014), 백혈구 수(㸠 × 10 9 /L NS = 0.002), FAB 분류(비 M3 유형 NS = 0.019), 세포유전학적 위험(중간/나쁨 NS < 0.001), NPM1 돌연변이(음수 NS = 0.005), FLT3 돌연변이(음수 NS = 0.004), IDH1 R132 돌연변이(음수 NS = 0.019) (도 7B – 7H).

표 2

형질승률 COMMD7 표현승산비(OR)NS
백혈구 수(x10^9/L) (㸠 vs. <=20)1503.16(1.64𠄶.24)π.001
PB 폭발(%) (㹰 대 <=70)1512.89(1.50𠄵.66)0.002
BM 폭발(%) (㸠 vs. <=20)1511.91(0.99𠄳.74)0.055
세포유전학적 위험(나쁨 vs. 좋음&중간)1490.91(0.43𠄱.93)0.807
FLT3 돌연변이(양수 대 음수)1470.32(0.15𠄰.65)0.002
IDH1 R132 돌연변이(양수 대 음수)1490.27(0.06𠄰.92)0.052
IDH1 R140 돌연변이(양수 대 음수)1492.03(0.61𠄷.89)0.266
RAS 돌연변이(양수 대 음수)1501.67(0.39𠄸.37)0.495
NPM1 돌연변이(양수 대 음수)1500.34(0.14𠄰.75)0.01
DNMT3A 돌연변이(양수 대 음수)1092.09(0.73𠄶.51)0.179
RUNX1 돌연변이(양수 대 음수)1090.30(0.06𠄱.08)0.085

사이의 연관 COMMD7 발현 및 임상적 특징 및 세포유전학적 위험. (NS) 의 진단적 효능 COMMD7 ROC에 의해 분석된 급성 골수성 백혈병에서. (NS시간) 사이의 연관 COMMD7 발현 및 BM 아세포(20%), WBC 수(20 × 10 9 ), FAB 분류, 세포유전학 위험도, NPM1 돌연변이, FLT3 돌연변이 및 IDH1 R132 돌연변이를 Wilcoxon Rank SUM 테스트를 사용하여 분석했습니다.

높은 COMMD7 다른 임상병리학적 상태를 가진 환자에서 AML의 예후에 영향을 미침

사이의 관계 COMMD7 Kaplan-Meier를 사용하여 AML 환자의 발현 및 예후를 분석했습니다. 도 8A에서 볼 수 있는 바와 같이, COMMD7 낮은 사람들보다 훨씬 더 나쁜 예후를 보였습니다. COMMD7 식(위험비[HR], 1.91(1.25-2.93) NS = 0.003). Kaplan-Meier 분석이 제시한 높은 표현 COMMD7 BM 폭발의 하위 그룹에서 불량한 예후와 관련됨≥ 20%(NS = 0.024), PB 폭발 ≤ 70%(NS = 0.007), 나이 㹠(NS = 0.009), FLT3 돌연변이 음성(NS = 0.009), IDH1 R132 돌연변이 양성(NS = 0.001), R140 돌연변이 양성(NS = 0.002), R172 돌연변이 양성(NS = 0.001), NPM1 돌연변이 양성(NS < 0.001), RAS 돌연변이 양성(NS = 0.002), 럭스1 돌연변이 음성(NS = 0.004), DNMT3A 돌연변이 음성(NS = 0.019) (도 8B – 8L).

의 높은 표현 COMMD7 AML 환자에서 불량한 OS와 관련이 있었습니다. (NS) 모든 AML 환자의 Kaplan-Meier 곡선. (NS) BM 아세포 > 20%를 갖는 AML 환자의 카플란-마이어 곡선. () PB 모세포가 있는 AML 환자의 카플란-마이어 곡선 ≤ 70%. (NS) 60세 이상 AML 환자의 Kaplan-Meier 곡선.이자형) 다음을 포함하는 부분군의 Kaplan-Meier 곡선 FLT3 AML 환자에서 돌연변이 음성, IDH1 R132 돌연변이 양성, IDH1 R140 돌연변이 양성, R172 돌연변이 양성, NPM1 돌연변이 양성, RAS 돌연변이 양성, RUX1 돌연변이 음성 및 DNMT3A 돌연변이 음성.

마찬가지로, 숲 플롯은 다음의 예후적 가치를 보여줍니다. COMMD7 단변량 Cox 회귀를 사용하는 다양한 AML 하위 유형에서 위의 결과와 일치하는 결론이 나타납니다( 그림 9 ).

산림 플롯은 다음을 보여주었습니다. COMMD7 백혈구 수의 하위 그룹에서 예측된 불량한 예후 (㸠 × 10 9 /L) (HR = 2.062, NS = 0.030), BM 폭발(㸠%)(HR = 1.897, NS = 0.024), PB 폭발(㹰%)(HR = 2.435, NS = 0.007), FLT3 돌연변이 음성(HR = 3.330, NS = 0.009), NPM1 돌연변이 양성(HR = 2.345, NS < 0.001).

이후에는 OS에 영향을 미치는 요인을 평가하기 위해 일변량 Cox 비례 위험 회귀를 사용하여 다음을 공개했습니다. COMMD7 (높음 대 낮음, NS = 0.003)는 더 나쁜 OS에 대한 예측 인자였으며, 세포유전학적 위험도 마찬가지였습니다(나쁨 & 중간 vs. NS < 0.001) 및 나이(㹠 대 �, NS < 0.001) (표 3). 세포유전학적 위험, 연령 및 COMMD7 그런 다음 다변수 Cox 회귀 분석에 포함되어 연령 > 60(NS < 0.001) 및 높은 표현 COMMD7 (NS = 0.01)은 더 나쁜 OS에 대한 독립적인 예후 인자(NS < 0.05).

표 3

형질HR(95% CI)
일변량 분석
NS
일변량 분석
HR(95% 신뢰구간)
다변량 분석
NS
다변량 분석
백혈구 수
(x10 9 /L)
(㸠 대 <=20)
1.161
(0.760𠄱.772)
0.49
PB 폭발(%)
(㹰 대 <=70)
1.230
(0.806𠄱.878)
0.338
BM 폭발(%)
(㸠 대 <=20)
1.165
(0.758𠄱.790)
0.486
세포유전학적 위험
(좋음 vs. 나쁨&중간)
0.312
(0.160𠄰.606)
π.0010.535
(0.261𠄱.097)
0.088
성별
(남성 대 여성)
1.030
(0.674𠄱.572)
0.892
나이
(㹠 대 <=60)
3.333
(2.164𠄵.134)
π.0013.374
(2.130𠄵.344)
π.001
인종(백인 vs. 아시아인&흑인)
또는 아프리카계 미국인)
1.200
(0.485𠄲.966)
0.693
FLT3 돌연변이
(긍정 vs. 부정)
0.787
(0.496𠄱.248)
0.309
IDH1 R132 돌연변이
(긍정 대 부정)
1.702
(0.689𠄴.205)
0.249
IDH1 R140 돌연변이
(긍정 vs. 부정)
0.884
(0.442𠄱.769)
0.727
IDH1 R172 돌연변이
(긍정 vs. 부정)
1.641
(0.228�.804)
0.623
RAS 돌연변이
(긍정 vs. 부정)
1.555
(0.568𠄴.254)
0.39
NPM1 돌연변이
(긍정 대 부정)
0.879
(0.546𠄱.416)
0.596
DNMT3A 돌연변이
(긍정 대 부정)
1.404
(0.731𠄲.696)
0.308
RUNX1 돌연변이
(긍정 대 부정)
1.119
(0.553𠄲.267)
0.754
COMMD7
(높음 대 낮음)
1.914
(1.251𠄲.927)
0.0031.850
(1.158𠄲.954)
0.01

의 예후 모델 COMMD7 AML에서

AML 환자의 예후를 더 잘 예측하기 위해 RMS R 패키지를 사용한 Cox 회귀 분석 결과를 기반으로 노모그램을 구성했습니다(도 10A). 세 가지 독립적인 예후 인자 변수, 나이, 세포 유전적 위험 및 COMMD7 표현은 0.2의 통계적 유의 수준에서 예측 모델로 선택되어 모델에 포함되었습니다. 다변량 Cox 분석을 기반으로 이러한 변수에 점수를 할당하는 데 점수 척도가 사용되었습니다. 변수의 포인트를 결정하기 위해 위쪽으로 직선을 그었고, 각 변수에 할당된 포인트의 합을 0�의 범위로 재조정하였다. 각 변수의 점수를 합산하여 총점으로 기록하였다. AML 환자의 1년, 3년, 5년 생존 확률은 총점 축에서 결과 축까지 직선으로 선을 그어 결정했습니다. 1년 생존 확률은 162 방향 끝 축을 따라 총점 축에서 아래쪽으로 수직선을 그려 3-5의 확률 모두에서 1년 생존 확률 < 20%를 제안합니다. -년 < 10%. OS의 노모그램 보정 곡선의 예측 결과는 모든 환자의 관찰 결과와 일치하였다(도 10B).

의 예후 예측 모델 COMMD7 AML에서. (NS) AML에 대한 1년, 3년, 5년 OS의 확률을 예측하기 위한 노모그램. (NS) 1, 3, 5년에 OS의 확률을 예측하기 위한 노모그램의 보정 플롯.


데이터 조화는 GDC의 기반이 되는 기본 원칙 중 하나입니다. 게놈 데이터는 일반적으로 다양한 그룹에서 프로젝트 수준으로 수집, 처리 및 분석됩니다. 가장 유사한 프로젝트라도 데이터 처리 및 분석 파이프라인 간의 작은 차이로 인해 항상 유효한 방식으로 비교할 수는 없습니다. GDC는 많은 암 프로젝트에서 원시 데이터를 수집하고 표준화된 파이프라인 1 및 참조 게놈 GRCh38 2를 사용하여 처리합니다. 이는 여러 프로젝트에서 여러 암 유형 또는 동일한 암 유형을 분석하는 이점을 제공합니다.

GDC 데이터는 신중하게 선별된 생물정보학 파이프라인을 사용하여 조화되며 체세포 변이체 호출, 유전자 발현, 복제 수 변이 추정 및 메틸화 데이터를 생성합니다. API를 통해 다운로드할 수 있는 모든 프로젝트에 공통적인 요소 집합을 만들어 임상 및 생체 표본 데이터도 조화됩니다. 새로운 프로젝트가 GDC에 제출되면 데이터 유형, 품질 및 사용 가능한 계산 리소스를 기반으로 조화를 진행하는 방법을 결정하는 생물정보학자 팀이 들어오는 데이터를 검토합니다.


비디오 보기: Cancer Bioinformatics: Pt2 TCGA Tutorial (팔월 2022).