정보

PheWAS는 GWAS 외에 어떤 새로운 정보를 추가합니까?

PheWAS는 GWAS 외에 어떤 새로운 정보를 추가합니까?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Phenome-Wide Association Study(PheWAS)를 이해하려고 합니다. 내가 올바르게 이해한다면 PheWAS는 GWAS(SNP 대신 형질을 사용하여 유전자-형질 연관성 찾기)의 역순으로 보입니다. 그렇다면 여러 GWAS를 실행하는 것과 비교하여 PheWAS 연구를 실행하면 어떤 새로운 정보가 추가됩니까? 예를 들어, 특정 SNP와 GWAS의 10개 특성 사이에 단일 변이 연관 결과가 있는 경우 해당 10개 특성에 대해 PheWAS를 수행하는 것과 동일한가요?


Neuroimaging PheWAS(Phenome-Wide Association Study): 빅 데이터, Brain-Wide Imaging Association Studies를 위한 무료 클라우드 컴퓨팅 플랫폼

대규모 사례 대조 게놈 전체 연관 연구(GWAS)는 다양한 신경 및 정신 장애와 관련된 유전적 변이를 밝혀냈습니다. 건강하고 질병에 걸린 대규모 집단의 신경영상 및 게놈 데이터베이스의 최근 발전은 발견된 유전적 요인이 뇌 구조와 기능에 미치는 영향을 특성화하는 연구에 힘을 실어주며, 기본 생물학에서 신경 경로와 유전 메커니즘을 연루시킵니다. 그러나 이미징 및 게놈 데이터의 전례 없는 규모와 복잡성으로 인해 데이터를 관리, 처리 및 분석하기 위한 새로운 고급 생물 의학 데이터 과학 도구가 필요합니다. 이 작업에서 우리는 Neuroimaging PheWAS(phenome-wide association study)를 소개합니다: 통합된 유전자형-대-유전자형을 사용하여 진정한 시스템 수준의 유전자-뇌 관계를 발견하기 위해 다양한 뇌 전체 이미징 표현형을 검색하는 웹 기반 시스템입니다. 표현형 전략. 이 디자인은 익명 데이터 업로드, 연구 정의 및 관리, 대화형 결과 시각화를 위한 사용자 친화적인 그래픽 사용자 인터페이스(GUI)와 통계적 연관성 분석 및 다중 비교 수정. 우리는 ADNI(Alzheimer's Disease Neuroimaging Initiative) 코호트에서 뇌 전반의 다양한 뇌 형태학적 특성에 대한 아포지단백질 E(APOE) 유전자의 영향을 분석하는 사례 연구를 통해 Neuroimaging PheWAS의 잠재력을 입증했습니다. 벤치마크 테스트는 UK Biobank의 데이터를 사용하여 시스템 성능을 평가하기 위해 수행되었습니다. Neuroimaging PheWAS 시스템은 무료로 사용할 수 있습니다. 신경 영상 데이터에 대한 PheWAS의 실행을 단순화하고 상세한 영상 표현형 데이터의 맥락에서 질병의 특정 유전 변이에 대한 경로를 설명하기 위해 영상 유전학 연구를 위한 기회를 제공합니다.

기관을 통해 액세스할 수 있는 구독 콘텐츠의 미리보기입니다.


소개

게놈, 유전자 산물, 신호 전달 경로, 중간 표현형 및 결과 형질 사이에는 동적 네트워크가 존재하며 이러한 복잡성을 활용하여 복잡한 형질의 병인에 대한 더 명확한 그림을 개발할 수 있습니다. 여러 수준에서 유전적 변이와 광범위한 표현형 측정 간의 관계를 탐구함으로써 우리는 이러한 복잡하고 포괄적인 결과를 통합하여 유전형-표현형 환경에 대한 더 명확한 그림을 얻을 수 있습니다. 많은 유전적 변이가 다중 형질과 관련되어 있다는 충분한 증거가 있으며, 이는 다면발현의 가능성을 나타냅니다. NHGRI GWAS(genome-wide association study) 카탈로그는 하나 이상의 표현형 및/또는 표현형 도메인과 관련된 많은 단일 염기 다형성(SNP)을 보여줍니다[1]. 자가면역 질환은 대사 증후군[4]과 마찬가지로 연관 증거[2,3]와 함께 유전적 영역에서 상당한 중첩을 보여 왔습니다.

표현형 및 유전형 연결의 동적 네트워크를 식별하기 위해 PheWAS(Phenome-Wide Association Studies)를 사용하여 많은 수의 단일 염기 다형성(SNP)과 광범위한 표현형 변수 간의 연관성을 높은 처리량 방식으로 평가할 수 있습니다( 그림 1 ). PheWAS는 여러 SNP와 비식별화된 전자 건강 기록(EHR) 데이터 사이의 연관성에 대한 조사로 시작되었으며[5], 현재 EHR 데이터와 함께 여러 번 성공적으로 사용되었습니다[6�]. 그 이후로 PheWAS는 역학 연구 데이터 및 임상 시험 데이터와 함께 사용되었습니다[13�]. PheWAS는 역학 집단, 임상 시험 및 동물 사육 연구와 같은 다양한 표현형 데이터를 사용하여 모든 연구 설계에서 유전적 변이와 광범위한 결과 특성 간의 연관성을 종합적으로 조사하는 데 사용할 수 있습니다. PheWAS는 유전적 변이와 하나의 결과/표현형 또는 제한된 표현형 도메인 간의 연관성을 조사하는 GWAS(Genome-Wide Association Study) 접근 방식을 보완합니다. 그러나 GWAS는 동일한 데이터 세트에서 동시에 평가된 광범위한 유전형 및 표현형 데이터를 사용할 때 존재하는 추가 정보를 제공할 수 없습니다. 단일 SNP와 여러 표현형 사이에 연관성이 발견되어 잠재적 다면발현성을 보이는 경우 중요한 생물학을 밝혀낼 수 있는 이러한 연관성에 대한 다양한 이유가 있습니다. 또한, PheWAS는 잠재적인 부작용 식별을 포함하여 단일 변이체와 다중 표현형 사이의 새로운 SNP 표현형 연관성 및 관계를 식별하여 임상 및 약물 발견을 지원할 가능성이 있습니다.

PheWAS는 포괄적인 표현형 세트와 유전적 변이 사이의 연관성을 평가하는 데 사용할 수 있습니다. 관계형 데이터베이스는 표현형 데이터를 구성하고 작업하는 데 유용합니다. 표현형 데이터는 역학 연구, 비식별화된 전자 건강 기록, 임상 시험 데이터 및 동물 사육 연구를 포함한 여러 유형의 연구를 통해 수집할 수 있습니다. 유전적 변이는 단일 염기 다형성(SNP)일 수 있지만 표현형 변이와의 연관성에 대해 평가할 수 있는 모든 유전 변이를 사용할 수 있습니다. 연관 테스트 결과는 여러 가지 방법으로 평가할 수 있으며 표시되지는 않지만 관계형 데이터베이스는 결과 분석을 지원할 수 있습니다. 새로운 발견은 교차 표현형 연관과 함께 식별될 수 있습니다. SNP, 유전자, 표현형 간의 연결 네트워크를 탐색할 수 있습니다. 이러한 결과는 복잡한 형질의 유전적 구조에 대한 더 많은 정보를 제공하고 생물학적으로 중요한 다면성을 강조하며 약물 발견을 지원할 수 있습니다.

PheWAS는 SNP와 표현형 간의 연관성에 국한되지 않습니다. PheWAS는 현재 복제 수 변이와 광범위한 측정 사이의 관계, 미토콘드리아 변이와 결과 사이의 관계와 같은 다른 유전 변이 사이의 관계를 탐구하기 위해 확장되고 있습니다[16]. PheWAS는 공통 주파수 SNP와 함께 사용할 수 있지만 저주파 변형을 사용하기 위한 도구가 점점 더 많이 도입됨에 따라 저주파 변형에도 적용될 수 있습니다. PheWAS 접근법은 단일 실험실 변수와 광범위한 표현형 사이의 연관성을 탐구하기 위해 확장되었습니다[17]. 또한, 환경 정보는 EWAS(Environment Wide Association Studies)[18,19] 및 DWAS(Dietary-wide Association Studies)[20]에서 추가 연구를 위해 광범위한 환경 노출을 평가하기 위해 PheWAS와 유사한 방식으로 사용될 수 있습니다. 그리고 이러한 결과는 PheWAS에서 다양한 표현형 결과와 함께 환경 노출과 유전적 변이 사이의 관계를 탐색하는 데 사용할 수 있습니다.

이 리뷰 내에서 우리는 현재까지 PheWAS 연구에 사용된 특성과 방법론을 설명합니다. 다양한 유형의 PheWAS 연구를 설정하고 PheWAS 연구에서 발생할 수 있는 잠재적인 수천 가지 결과를 평가하는 데 효과적으로 사용된 방법에 대한 논의가 포함됩니다. 또한 현상 전반에 걸친 연관성 연구에 대한 몇 가지 과제, 한계 및 향후 방향을 강조합니다.


PheWAS 방법론

최초의 PheWAS는 2010년에 출판되었습니다. 생물정보학 원리 증명으로. 8 이 연구는 ICD9 코드의 중추에 구축되고 임상 전문 지식으로 정제된 선별된 현상 전반에 걸쳐 5개의 유전자 표적을 연관시켰습니다. 일반적으로 4자리 및 5자리 ICD9 코드(예: 714.3 및 714.33)를 포함하는 고급 ICD9 코드는 공통 3자리 코드(예: 714)로 압축되었습니다. 일부 시나리오에서는 관련 3자리 코드도 축약되었습니다. 표현형이 매우 유사한 4자리 및 5자리 ICD9 코딩을 공유하지만 별개의 질병(예: I형 및 II형 당뇨병)으로 간주되는 다른 시나리오에서는 고차 코딩이 유지되었습니다. 가능성이 없는 유전적 병인이 있는 ICD9 코드가 제거되었습니다(예: 이물질로 인한 오염). 가장 단순한 수준에서 특정 ICD9 코드로 코딩된 환자는 해당 코드에 대한 '케이스'가 됩니다. 특정 ICD9 코드로 코딩되지 않은 환자는 '대조군'이 됩니다. 선별된 현상을 사용하는 이점은 ICD9 코딩의 복잡성이 감소된다는 것입니다. 이와 같이, 연관성을 검출하는 능력은 사례의 증가 및 가능한 표현형의 감소에 의해 증가될 수 있다. 강력한 환경 구성 요소가 있는 것으로 보이는 선택된 ICD9 코드를 제거함으로써 다중 테스트 부담이 더욱 줄어듭니다. 반대로, 이 방법에는 편견이 없습니다. ICD9 코드를 결합할 때 가정합니다. 유전과 관련이 없다고 생각되는 ICD9 코드가 분석되지 않을 때 편향이 더 도입됩니다. 그럼에도 불구하고 큐레이트된 현상을 PheWAS에 적용하여 예상되는 GWAS 결과를 검증하고 잠재적인 새로운 연관성을 식별할 수 있습니다. 예를 들어, SNP rs6457620, HLA RA와 연관된 것으로 알려진 SNP, 22는 RA에 대한 ICD9 코드(ICD9 714)와 연관되었습니다. 흥미롭게도 이 SNP는 뇌하수체 및 삼차신경 장애와도 관련이 있었습니다. rs6457620 외에도 다른 HLA SNP는 특히 rs3135388의 유전자형이 지정되었습니다. 에 대한 Rs3135388 태그 HLA-DRB1*1501 MS와 밀접한 관련이 있는 것으로 알려져 있습니다. 5 언제 HLA-DRB1*1501 (rs3135388) 유전자형이 분석되었고, MS(ICD9 340)를 정의하는 ICD9 코드는 SNP 유전자형과 높은 관련성이 있었습니다. 사이의 연관성을 포함한 새로운 연관성도 보고되었습니다. HLA-DRB1*1501 유전자형 및 홍반성 질환(ICD9 695). 8 이 예는 PheWAS가 이전에 보고된 GWAS를 보완하고 감사하지 않은 유전적 병인이 있는 질병에 대한 새로운 통찰력을 제공할 수 있는 방법을 보여줍니다.

유사한 선별된 현상을 사용한 또 다른 연구는 전자 의료 기록 및 유전체학(eMERGE) 네트워크 내에서 수행되었습니다. 23 이 연구에서 독특하게 GWAS는 동일한 코호트 내에서 PheWAS에 정보를 제공하는 데 사용되었습니다. GWAS 결과는 일반적인 SNP가 폭스1 (rs965513)은 갑상선 기능 저하증의 위험과 유의한 관련이 있었습니다. 폭스1갑상선 전사 인자 2로도 알려진 유전자는 드문 형태의 증후군 선천성 갑상선 기능 저하증을 비롯한 다양한 갑상선 질환과 관련이 있습니다. 24 GWAS 분석 후, rs965513은 GWAS에 대한 갑상선 기능 저하증 사례 및 대조군을 도출하는 데 사용된 동일한 코호트에서 PheWAS에 의해 평가되었습니다. 예상대로 갑상선 기능 저하증을 정의하는 ICD9 코드는 PheWAS에 의한 rs965513 유전자형과 유의하게 연관되었지만, 비독성 결절/다결절 갑상선종 및 영양 결핍 빈혈을 비롯한 기타 갑상선 관련 상태도 연관되었습니다. 9

최근에 이 GWAS 정보 PheWAS 접근법은 혈소판 표현형 연구에도 적용되었습니다. 위에서 설명한 것과 유사한 eMERGE 모집단을 사용하여 이 연구에서는 혈소판 수와 관련된 56개의 SNP, 혈소판 부피와 관련된 29개의 SNP, 둘 다와 관련된 4개의 SNP를 포함하여 81개의 GWAS-유의한 SNP를 식별했습니다. 이러한 SNP 중 다수는 이전에 발표된 GWAS 결과를 검증합니다. 5 그런 다음 81개의 SNP 각각이 현상과 개별적으로 연관되었습니다. 예를 들어, rs3819299, intronic 변형 HLA-B 유전자는 예상대로 혈소판 수와 관련이 있었습니다. 5, 25 이 SNP에 대한 PheWAS 결과는 HLA-B 유전형은 또한 염증성/강직성 척추병증 및 포도막염의 위험 인자입니다. 의 역할 HLA-B 척추병증 및 포도막염의 유전자형은 이전에 설명되었습니다. 26, 27 중요하게도, HLA-B 유전자형 및 유양 돌기염. 13 좋아요 폭스1 이전에 설명한 예에서 9 이 연구는 GWAS를 사용하여 동일한 모집단에서 PheWAS에 정보를 제공할 때 SNP에 대한 생물학적, 잠재적 임상적 중요성에 대한 확장된 이해를 얻을 수 있음을 보여줍니다. 이 GWAS 정보 PheWAS 접근 방식은 부정맥 위험 연구에도 적용되었습니다. 12

선별된 현상에 대한 대안적인 접근 방식으로 다른 사람들은 여러 수준의 표현형 해상도에서 모든 ICD9 코드를 테스트하여 전체론적 방법을 적용했습니다. 예를 들어, 단일관절 청소년 RA(ICD9 714.33)로 코딩된 환자는 고유한 사례 그룹을 정의하는 반면 소관절 청소년 RA(ICD9 714.32)로 코딩된 환자는 또 다른 고유한 사례 그룹을 정의합니다. 유전적 병인이 유사한 코드 간에 공유될 가능성을 해결하기 위해 모든 714.3* 코드를 714.3에 의해 정의된 케이스 그룹으로 결합한 다음 유사한 코드와 추가로 결합하여 별도의 714 케이스 그룹을 형성할 수 있습니다(그림 2). 샘플 크기와 빈도 제한에 따라 이 방법론은 거의 17,000개의 표현형을 생성할 수 있습니다. 21 이 방법의 장점은 어느 한 질병에 대한 유전적 또는 환경적 기여에 대해 가정하지 않는다는 것입니다. 이것은 유전자간 및 코딩 변이체가 동등하게 취급되는 GWAS와 유사합니다. 보다 전체적인 현상을 사용하는 것의 단점은 작은 케이스 크기를 가진 표현형이 더 많기 때문에 연관성을 감지하는 능력이 감소할 가능성이 있다는 것입니다. 그럼에도 불구하고, 연구자들은 PheWAS 동안 성공적으로 현상 또는 그 변형을 정의하기 위해 이 단순화된 방법을 적용했습니다. 예를 들어, Marshfield Clinic 환자 집단은 HLA-DRB1*1501 이전에 설명한 첫 번째 PheWAS에 대한 후속 조치입니다. 8 예상대로 HLA-DRB1*1501 유전자형은 MS에 대한 ICD9 코드(ICD9 340)와 연관되었습니다. 중요한 것은, HLA-DRB1*1501 또한 홍반성 질환에 대한 ICD9 코드(ICD9 695)와 관련이 있습니다. 이것은 새로운 PheWAS 발견이 독립적으로 검증된 첫 번째 예입니다. 현상을 정의하기 위해 전체론적 접근을 적용하고 고차 표현형을 활용함으로써 주사비에 대한 ICD9 코드(ICD9 695.3)가 홍반 상태를 정의하는 보다 광범위한 ICD9 코드의 연관 결과를 주도할 수 있음이 밝혀졌습니다. 또한, 이 연구는 HLA-DRB1*1501 유전형 및 알코올 유발 간경변을 정의하는 ICD9 코드(ICD9 571.2), 10 강력한 환경 요소의 가능성으로 인해 원래 PheWAS에서 무시되었을 수 있는 표현형. 이 새로운 PheWAS 발견을 지원하기 위해 이전 GWAS는 HLA-DRB1*1501 약물 유발 간 손상과 관련이 있습니다. 28, 29

편향되지 않은 현상이 PheWAS에 적용된 또 다른 예는 Warner에 의해 보고되었습니다. . 15 이 연구는 비유전적 표적, 특히 WBC 수를 사용한 최초의 PheWAS라는 점에서 독특합니다. 이 연구의 목표는 중환자실(ICU)에 있는 환자의 백혈구 수와 ICD9 코드 사이의 상황에 따른 연관성을 확인하는 것이었습니다. 증가된 WBC 수와 만성 림프성(ICD9 204.10), 급성 골수성(ICD9 205.00) 및 만성 골수성(ICD9 205.10) 백혈병을 포함한 백혈병을 정의하는 ICD9 코드 사이에 예상되는 연관성이 관찰되었습니다. 백혈구 수는 또한 다음의 진단과 관련이 있었습니다. 클로스트리디움 디피실리 감염, 그리고 이 환자들은 관찰된 효과적인 치료 지연과 입원 기간의 증가로 인해 부작용의 위험이 증가했습니다. 15 이 PheWAS 결과는 현재 치료 표준을 변경하고 백혈구 수가 증가하고 다음의 위험이 높은 ICU 환자에 대한 잠재적인 부작용을 줄이는 데 도움이 될 수 있습니다. C. 디피실레 감염.

ICD9 코딩은 표현형의 스펙트럼을 설명할 때 유용하며 표준화된 구조 및 사용의 결과로 PheWAS 결과를 여러 기관에서 결합하거나 비교할 수 있습니다. 또는 현상을 정의할 때 다른 데이터 유형을 적용할 수 있습니다. 예를 들어 PAGE(Population Architecture using Genomics and Epidemiology) 네트워크는 설문조사 및 의료 기록을 포함하여 다양한 출처에서 수집된 다양한 표현형을 여러 기관의 PheWAS에 적용할 수 있는 방법을 설명합니다. 2011년, 30에서 처음 설명되고 2013년 초에 추가로 정의된 11 PAGE 네트워크는 이전에 보고된 83개의 GWAS SNP에 초점을 맞추었으며 5개 PAGE 네트워크 그룹 중 최소 2개에서 유전자형이 지정되었습니다. 각 연구 그룹은 정의된 표현형에 대해 자체 PheWAS를 수행했습니다. 표현형의 수는 연구 그룹마다 크게 다릅니다. 예를 들어 Women's Health Initiative에서는 3363개의 표현형이 기술된 반면 Multiethnic Cohort Study에서는 63개의 표현형이 기술되었습니다. 모든 표현형 NS < 0·01은 수동으로 105개의 광범위하게 정의된 표준화된 표현형 클래스(예: 비타민 E 수준)로 그룹화하고 연구 그룹 간에 비교하여 중복되는 중요한 연관성을 식별합니다. 이 방법은 예상되는 유전자형-표현형 연관성의 48%가 PheWAS에 의해 직접 검증될 수 있고 다른 23%가 이전에 보고된 유전자형-표현형 연관성과 밀접하게 관련된 연관성을 나타냄을 보여주었습니다. 중요한 것은 PAGE PheWAS 결과의 30%가 새로운 연관성을 나타냈다는 것입니다. 예를 들어, 이 PheWAS는 IL6R(rs2228145) 유전자형과 호중구 수 및 림프구 11 rs2228145 사이의 새로운 연관성을 특징으로 하며 이전에 C 반응성 단백질 수준과 관련이 있는 것으로 나타났습니다. 31

현상을 정의하는 데 사용된 방법론에 관계없이 PheWAS 설계에는 문제가 있습니다. 일부 제한 사항은 GWAS와 공유되지만 다른 제한 사항은 고유합니다. 반대로, PheWAS는 이 접근법을 인간 질병의 복잡성을 이해하기 위한 강력한 보완적 방법으로 만드는 독특한 이점을 가지고 있습니다.


감사의 말

BBJ에 등록한 모든 참가자들에게 감사드립니다. 샘플 및 임상 정보 수집에 기여한 모든 임상의와 조직에 감사드립니다. 이 연구는 문부과학성의 맞춤형 의료 프로그램(BBJ)과 일본 의료 연구 개발청(AMED 교부금 JP17km0305002, JP19km0405201 및 JP19km045208)의 지원을 받았으며, AMED의 뇌 과학 전략 연구 프로그램(No. JP19dm0107097). 에야디야. 일본 과학 진흥 협회, KAKENHI(nos. 15H05911 및 19H01021), AMED(nos. JP19gm6010001, JP19ek0410041, JP19ek0109413 및 JP19ek0109413 및 JP19km/JP19km/JP19km)의 지원을 받았습니다. 대학 및 오사카 대학 의료 데이터 과학 센터, 고급 임상 역학 조사관의 연구 프로젝트. 기금 제공자는 연구 설계, 데이터 수집 및 분석, 출판 결정 또는 원고 준비에 아무런 역할도 하지 않았습니다.


행동 양식

주제 및 임상 측정

이 연구에는 EUFAM, FINRISK, FinnGen 및 UK Biobank 코호트의 참가자가 포함되었습니다. EUFAM (조기 관상동맥 심장병 환자의 가족성 이상지질혈증에 대한 유럽 다기관 연구) 연구 코호트는 핀란드 가족성 복합 고지혈증 가족으로 구성되어 있습니다 37 . EUFAM 연구의 가족은 조기 관상동맥 심장병 진단을 받아 핀란드 대학 병원에 입원한 프로밴드를 통해 확인되었습니다. 프로밴드는 조기 관상 동맥 심장 질환과 총 콜레스테롤, 중성지방 또는 둘 다(90번째 핀란드 연령별 및 성별별 인구 백분위수 이상) 수치가 높거나 HDL-C 수치가 낮습니다(10번째 백분위수 이하). 프로밴드의 직계가족 중 적어도 한 명이 총 콜레스테롤, 트리글리세리드 또는 둘 모두의 수치가 높은 경우 해당 프로밴드의 모든 가족 구성원과 배우자에게 초대가 확대되었습니다. 밤새 금식한 후 모든 참가자로부터 정맥혈 샘플을 얻었다. 트리글리세리드와 총 콜레스테롤은 자동화된 Cobas Mira 분석기(Hoffman-La Roche, Basel, Switzerland)를 사용하여 효소적 방법으로 측정되었습니다 37,38. HDL-C는 phosphotungstic acid/magnesium chloride 침전 절차에 의해 정량화되었고 LDL-C는 Friedewald 공식 39를 사용하여 계산되었습니다.

핀란드 국립 FINRISK 연구는 1972년부터 5년마다 실시하는 인구 기반 조사로, 지금까지 표본은 1992년, 1997년, 2002년, 2007년, 2012년에 수집되었습니다40. 1992년, 1997년, 2002년, 2007년 및 2012년 조사의 수집물은 국립 보건 복지 연구소(THL) Biobank에 저장되어 있습니다. FINRISK 2012 설문 조사에서 무작위로 선택된 1142명의 참가자에 대해 지질 프로파일링이 수행되었습니다(보충 표 1). 피험자들은 검사 전 최소 4시간 동안 금식하고 하루 중 이른 시간에 과식을 피하도록 권고했습니다. 모든 참가자로부터 정맥혈 샘플을 채취하고 혈청을 분리했습니다. HDL-C, 트리글리세리드 및 총 콜레스테롤은 Abbott Architect c8000 임상 화학 분석기 40을 사용하여 효소적 방법(Abbott Laboratories, Abbott Park, IL, USA)으로 측정되었습니다.

FinnGen 데이터 릴리스 2는 102,739명의 핀란드 참가자로 구성됩니다. 표현형은 FinnGen 프로젝트의 일부로 핀란드 국립 병원 레지스트리 및 사망 원인 레지스트리의 ICD 코드에서 파생되었습니다. 이 레지스터의 CVD 진단의 품질은 이전 연구 41,42,43,44,45에서 검증되었습니다. UK Biobank 데이터는 2000개 이상의 표현형 46에 대해 주석이 달린 40~69세 영국에 기반을 둔 500,000명 이상의 참가자로 구성됩니다. 이 연구의 PheWAS 분석에는 백인 영국 참가자의 샘플 408,961개가 포함되었습니다.

윤리 선언문

연구는 헬싱키 선언의 원칙에 따라 수행되었습니다. 모든 연구 참가자로부터 서면 동의를 얻었습니다. 연구 프로토콜은 참여 센터의 윤리 위원회(헬싱키 병원 지구 및 Uusimaa 조정 윤리 위원회, 승인 번호 184/13/03/00/12)의 승인을 받았습니다. 핀란드 보건 복지 연구소(THL) 주도의 FinnGen 준비 프로젝트(여기서는 FinnGen이라고 함)의 경우 모든 환자와 대조군은 핀란드 바이오뱅크 법에 따라 바이오뱅크 연구에 대한 사전 동의를 제공했습니다. 또는 이전 코호트가 연구 특정 동의를 기반으로 했으며 나중에 복지 및 건강에 대한 국가 감독 기관인 Valvira의 승인을 받은 후 THL Biobank로 이전되었습니다. 채용 프로토콜은 Valvira에서 승인한 바이오뱅크 프로토콜을 따랐습니다. 헬싱키 및 Uusimaa 병원 지구의 윤리 검토 위원회는 FinnGen 연구 프로토콜 Nr HUS/990/2017을 승인했습니다. FinnGen 준비 프로젝트는 THL, 승인 번호 THL/2031/6.02.00/2017, 개정 THL/341/6.02.00/2018, THL/2222/6.02.00/2018 및 THL/283/6.02.00/의 승인을 받았습니다. 2019. 이 연구의 모든 DNA 샘플과 데이터는 가명으로 처리되었습니다.

지질 프로파일링

2,181명의 참가자에 대한 질량 분석 기반 지질 분석은 Lipotype GmbH(독일 드레스덴)에서 3개의 배치(353명 및 686명의 EUFAM 참가자) 및 3번째 배치의 1142명의 FINRISK 참가자에서 수행되었습니다. 샘플은 TriVersa NanoMate 이온 소스(Advion Biosciences) 47가 장착된 QExactive 질량 분석기(Thermo Scientific)에서 직접 주입하여 분석했습니다. 데이터는 LipidXplorer 48,49를 기반으로 자체 개발한 지질 식별 소프트웨어를 사용하여 분석되었습니다. 데이터의 사후 처리 및 정규화는 자체 개발한 데이터 관리 시스템을 사용하여 수행되었습니다. 신호 대 잡음비가 >5이고 상응하는 블랭크 샘플보다 5배 이상 많은 양의 지질만이 추가 분석을 위해 고려되었습니다. 96웰 플레이트당 참조 혈장 샘플(EUFAM의 경우 8개의 참조 샘플 및 FINRISK의 경우 3개의 참조 샘플)을 포함하여 분석의 재현성을 평가했습니다. 중앙값 변동 계수는 모든 배치에 걸쳐 <10%였습니다. 데이터는 배치 및 드리프트 효과에 대해 수정되었습니다. 모든 배치 및 샘플(N = 64) 지질 함량이 낮은 것은 제외되었습니다. 품질 관리를 통과한 지질 종 중 13개 지질 클래스(보충 표 2)에서 총 141개 지질 종이 3개 배치 모두에서 일관되게 검출되었으며 모든 분석에 포함되었습니다. 지질 클래스의 총량은 각 지질 클래스에 속하는 모든 지질 종의 절대 농도를 합산하여 계산되었습니다. 측정된 지질 종의 농도와 계산된 클래스 총계는 순위 기반 역정규 변환에 의해 정규 분포로 변환되었습니다.

연구에 사용된 Lipotype 플랫폼은 많은 추가 지질 종을 감지했습니다(N = 83) 이전에 다른 플랫폼에서 캡처되지 않았습니다. 다른 플랫폼에서 감지된 지질 종의 목록과 플랫폼 전체에서 중복되는 항목은 보충 데이터 12 및 보충 그림 7에 제공됩니다.

유전자형 및 전가

EUFAM 및 FINRISK 코호트 모두에 대한 유전자형 분석은 HumanCoreExome BeadChip(Illumina Inc., San Diego, CA, USA)을 사용하여 수행되었습니다. FIMM(Institute for Molecular Medicine Finland)에서 zCall을 사용하여 다른 사용 가능한 데이터 세트와 함께 유전자형 호출을 생성했습니다. 유전자형 데이터는 낮은 호출율(<95%), 성별 불일치, 과도한 이형접합체 및 비유럽계 조상을 가진 샘플의 제외를 포함하는 전가 전에 엄격한 품질 관리(QC)를 거쳤습니다. 낮은 호출률(<95%) 및 Hardy-Weinberg Equilibrium(HWE)에서 편차가 있는 변형 NS < 1 × 10 -6 )은 제외되었습니다. IMPUTE2 50을 사용하여 대체를 수행했으며, 2690개의 높은 적용 범위 전체 게놈 및 5093개의 높은 범위의 전체 엑솜 서열 데이터의 2개의 모집단 특정 참조 패널을 사용했습니다. 전가 정보 점수가 0.70 미만인 변이체는 필터링되었습니다. 지질 프로필 및 전가된 변이체에 대한 QC 후, 모든 후속 분석에는 2045명의 개인 및

MAF >0.005인 930만 개의 변이가 두 집단 모두에서 사용 가능했습니다.

FinnGen 샘플은 Illumina 및 Affymetrix 어레이(Thermo Fisher Scientific, Santa Clara, CA, USA)로 유전자형을 지정했습니다. Illumina용 GenCall 및 zCall 알고리즘과 Affymetrix 칩 유전자형 데이터용 AxiomGT1 알고리즘을 사용하여 유전자형 호출이 이루어졌습니다. 이전 칩 플랫폼으로 생성된 유전자형 데이터는 여기에 설명된 프로토콜에 따라 버전 38(GRCh38/hg38)을 빌드하기 위해 해제되었습니다: dx.doi.org/10.17504/protocols.io.nqtddwn. 성별 불일치, 높은 유전자형 결손(> 5%), 과도한 이형접합성(+-4SD) 및 비핀란드 가계가 있는 샘플을 제거했습니다. 누락이 높은 변형(> 2%), HWE와의 편차(NS < 1e-6) 및 낮은 소수 대립유전자 수(MAC < 3)가 제거되었다. 유전자형 데이터의 사전 단계화는 컨디셔닝 일배체형의 수가 20,000으로 설정된 것을 제외하고 기본 매개변수를 사용하여 Eagle 2.3.5(https://data.broadinstitute.org/alkesgroup/Eagle/)로 수행되었습니다. 다음 프로토콜에 설명된 대로 Beagle 4.1(버전 08Jun17.d8b, https://faculty.washington.edu/browning/beagle/b4_1.html)이 포함된 인구별 SISu v3 대치 참조 패널을 사용하여 대치를 수행했습니다. dx.doi.org/10.17504/protocols.io.nmndc5e]. SISu v3 대치 참조 패널은 MIT 및 Harvard의 Broad Institute와 Washington University의 McDonnell Genome Institute에서 생성되고 Broad Institute에서 공동으로 처리된 높은 범위(25–30x) 전체 게놈 시퀀싱 데이터를 사용하여 개발되었습니다. 변형 호출 집합은 변형 호출에 대한 GATK 모범 사례에 따라 GATK HaplotypeCaller 알고리즘으로 생성되었습니다. Hail 프레임워크 v0.1[https://github.com/hail-is/hail]을 사용하여 유전자형, 샘플 및 변이형 QC를 반복적으로 적용했습니다. 3,775명의 개인에 대한 결과 고품질 WGS 데이터는 위에서 설명한 대로 Eagle 2.3.5로 단계적으로 이루어졌습니다. INFO 점수 < 0.7인 변이체 제외와 관련된 전가 후 품질 관리.

대다수의 UK Biobank 참가자에 대한 유전자형 분석은 Affymetrix UK Biobank Axiom Array를 사용하여 수행되었으며 참가자의 하위 집합은 Affymetrix UK BiLEVE Axiom Array를 사용하여 유전자형 분석을 수행했습니다. UK Biobank 코호트의 품질 관리 및 전가에 대한 자세한 내용은 Bycroft et al. 51 .

유전 추정치 및 유전적 상관관계

유전성 및 유전적 상관 관계 추정을 위해 EUFAM 및 FINRISK 코호트에 대해 별도로 계산된 지질 종의 순위 기반 역변환 측정값을 결합하여 통계적 검정력을 높였습니다. 연령, 성별, 유전 인구 구조의 처음 10개 주요 구성 요소(PC), 지질 약물, 호르몬 대체 요법, 갑상선 상태 및 제2형 당뇨병에 대한 회귀 후 역변환 측정의 잔차가 표현형으로 사용되었습니다. biMM 52에서 구현된 바와 같이 유전적 관계 매트릭스(GRM)를 사용하는 분산 성분 분석을 사용하여 SNP 기반 유전 가능성 추정치를 계산했습니다. 누락이 <10%이고 MAF가 >0.005인 양질의 변이체만 GRM을 생성하는 데 사용되었습니다. GRM은 Zaitlen et al.에 의해 제안된 대로 <0.05에서 0인 비대각선 요소를 설정하여 GCTA를 사용하여 생성되었습니다. 53 . 이를 통해 밀접하게 관련된 개인을 제거하지 않고 가족 데이터에서 SNP 기반 유전성을 추정할 수 있습니다. Wilcoxon 순위 합 테스트를 사용하여 다른 그룹의 지질 종의 유전 가능성 추정치를 비교했습니다.

각 지질 종의 쌍과 각 지질 종과 전통적인 지질 간의 유전적 상관관계는 biMM에서 구현된 이변량 선형 혼합 모델을 사용하여 생성된 GRM을 사용하여 결정되었습니다. 모든 지질 종의 쌍과 전통적인 지질 사이의 혈장 수준에 기초한 상관 관계(표현형 상관 관계라고 함)는 Pearson의 상관 계수를 사용하여 계산되었습니다. 히트맵과 유전적 및 표현형 상관관계에 기반한 계층적 클러스터링은 히트맵을 사용하여 생성되었습니다. 또한 지질 강하제를 사용하는 개인을 배제한 후 수행되었습니다(N = 172).

지질학 GWAS

가능한 배치 효과를 제어하기 위해 모든 배치에서 141개의 개별 지질 종, 12개의 총 지질 클래스 및 4개의 전통적인 지질 측정(HDL-C, LDL-C, 총 콜레스테롤 및 트리글리세리드)에 대한 단변량 연관성 테스트를 수행하고 다음과 같은 요약 통계를 결합했습니다. 메타 분석. EUFAM 코호트에 대한 연관 분석은 MMM 54에서 구현된 바와 같이 고정 효과로서의 상기 언급된 공변량 및 랜덤 효과로서의 친족 매트릭스를 포함하는 선형 혼합 모델을 사용하여 수행되었습니다. GWAS 분석을 위한 친족 매트릭스는 MAF >0.01 및 결손도 <2%인 직접 유전형 변이체를 사용하여 다른 염색체의 변이체를 포함하도록 각 염색체에 대해 별도로 계산되었습니다. The FINRISK cohort was analysed with linear regression model adjusting for age, sex, first ten PCs, lipid medication and diabetes using SNPTEST v2.5 55 . Meta-analyses were performed using the inverse variance weighted method for fixed effects adjusted for genomic inflation factor in METAL 56 . In addition, analyses adjusting for the traditional lipids (in addition to above-mentioned covariates) were also performed for the identified variants to determine the independent effect on lipid species.

Test statistics were adjusted for λ values if >1.0 before meta-analyses. Genomic inflation factor (λ) ranged from 0.98 to 1.19 across the batches whereas the final λ values for meta-analysis ranged from 0.998 to 1.045 (Supplementary Data 13). NS P-values obtained from the meta-analysis were considered to determine the SNP–lipid species associations. To account for multiple tests, the study-wide P-value threshold was set at <1.5 × 10 −9 after correcting for 34 principal components (PCs) that explain over 90% of the variance in lipidomic profiles. Only the associations consistent in effect direction in all three batches were considered significant. Variants were designated as new if not located within 1 Mb of any previously reported variants for lipids (any of the traditional lipids and molecular lipid species) and as independent signal in known locus if located within 1 Mb but r 2 < 0.20 with the previous lead variants and confirmed by conditional analysis. Variants with the strongest association in the identified lipid species loci was identified as the lead variants, and were annotated to the nearest gene for the new loci.

PheWAS

We identified 25 CVD-related outcomes from the derived phenotypes in the FinnGen and UK Biobanks (Supplementary Table 3). Associations between the 35 lead variants from the identified loci and 25 selected CVD phenotypes in FinnGen cohort were obtained from the ongoing analyses as a part of the FinnGen project. The associations were tested using saddle point approximation method adjusting for age, sex and first 10 PCs as implemented in SPAtest R package 57 . Associations between selected binary phenotypes and 35 lead variants in UK Biobank were obtained from Zhou et al. that were tested using logistic mixed model in SAIGE with a saddle point approximation and adjusting for first four principal components, age and sex (https://www.leelabsg.org/resources) 58 . Data for four phenotypes were not available from Zhou et al. and hence were obtained from http://www.nealelab.is/uk-biobank/. Associations of quantitative traits were tested using linear regression models with the same covariates as mentioned above, both for Finnish and UK Biobank cohorts. Meta-analyses of both cohorts were performed using the inverse variance weighted method for fixed effects model in METAL. NS P-values obtained from the meta-analyses of the two cohorts are reported for PheWAS associations. All the PheWAS associations with false discovery rate (FDR) <5% evaluated using the Benjamini–Hochberg method and consistent direction of effects were considered significant.

Variance explained

To determine the variance explained by the known loci for traditional lipids, we included all the lead variants with MAF >0.005 in 250 genomic loci that have previously been associated with one or more of the four traditional lipids. Of the 636 reported variants, 557 variants with MAF >0.005 (including six proxies) were available in our QC passed imputed genotype data (Supplementary Data 10). A genetic relationship matrix (GRM) based on these 557 variants was generated using GCTA that was used to determine the variance in plasma levels of all lipid species explained by the known variants using variance component analysis in biMM.

LPL activity

The post-heparin lipoprotein lipase (LPL) after 15 min of heparin load was measured for 630 individuals in the EUFAM cohort using the ELISA method developed by Antikainen et al. 59 . The measured values were transformed using rank-based inverse normal transformation. Associations between the LPL activity and plasma levels of TAGs were determined using linear regression model adjusted for age, sex, lipid medication, hormone replacement therapy, thyroid condition and type 2 diabetes. Association between the LPL variant rs11570891 and LPL activity was tested using linear mixed model adjusted for age, sex, first ten PCs of genetic population structure, lipid medication, hormone replacement therapy, thyroid condition and type 2 diabetes as fixed effect and kinship matrix as random effect as implemented in MMM.

보고 요약

연구 설계에 대한 추가 정보는 이 기사에 링크된 Nature Research 보고 요약에서 확인할 수 있습니다.


논의

Our study investigates the utility of PheWAS to help predict therapeutic success of candidate drug targets nominated through human genetics. We focused on a selection of loci that GWAS have firmly established as associated with common immune-mediated, cardiometabolic, or neurodegenerative human diseases, and where additional biological or genetic evidence supports candidate drug target genes within these loci as likely causing the disease associations. We analyzed SNPs impacting these targets for association with 1683 disease endpoints captured in four large, disease-agnostic population cohorts that link genome-wide genotypes with various types of structured health information. Our PheWAS meta-analysis replicates 75% of the published GWAS associations at NS <𠂐.05, substantially surpassing performance of previous PheWAS in smaller cohorts 25 . Through meta-analyzing PheWAS results with published GWAS data, we identified nine novel SNP-phenotype associations that exceeded stringent significance thresholds for multiple test correction, as well as additional putative associations with therapeutically relevant clinical endpoints. For a subset of early drug targets, our results support previous genetic evidence for efficacy in distinct common disease indications. Our analysis further proposes alternative indications as opportunities for drug repositioning and predicts on-target adverse drug events that may warrant preclinical or clinical monitoring.

Among others, we discovered novel associations for p.I148M in PNPLA3. This is a common gain-of-function missense allele increasing the risk for a range of liver phenotypes, which suggested that pharmaceutical inhibition of PNPLA3 could be a viable strategy to treat or prevent liver diseases. While our PheWAS support this hypothesis and further backs expanding the indication spectrum of a putative PNPLA3 inhibitor to T2D, we also uncovered opposite associations with severe acne and high cholesterol, phenotypes that if observed during a clinical trial might put a therapeutic program at risk.

We also identified a novel association of the IFIH1 loss-of-function allele rs1990760-C (p.T946A) with risk of asthma. The rs1990760-C allele, which protects against several autoimmune diseases and increases risk of UC, has been shown to decrease interferon (IFN) signaling and lower resistance to viral challenge 43 , while complete loss of IFIH1 function makes children susceptible to severe viral respiratory infections 44 , 45 . The association of rs1990760-C with increased risk of asthma discovered in our meta-PheWAS is consistent with the observation that bronchial epithelial cells from asthmatics produce lower amounts of IFN-β during viral infections 46 , a finding that lead to inhaled IFN-β being tested in phase 2 clinical trials for the treatment of virus-induced asthma exacerbation 47 . Future studies will need to investigate the risk:benefit ratio of modulating MDA5 (encoded by IFIH1) for asthma relative to autoimmune diseases.

While our study illustrates the power of systematically interrogating disease-agnostic cohorts with extensive health information to enrich target validation, it also emphasizes several opportunities to improve existing resources in order for PheWAS to become a routine tool in drug discovery and development. First, truly large, thoroughly phenotyped cohorts will be needed to adequately power PheWAS. Despite our meta-PheWAS being conducted in close to 700,000 individuals, 20% of GWAS associations could not be replicated (NS <𠂐.05) in the disease-agnostic cohorts due to an insufficient number of cases. In addition, PheWAS should considerably gain from improved phenotypic endpoints 48 . In our study, this is best reflected by an only modest replication rate, despite adequate power, for CD, UC, and IBD endpoints that are closely related and difficult to discern from other disorders in routine clinical settings 49 . To better take these considerations and other characteristics of disease-agnostic cohorts (typical case:control ratio unbalance between phenotypes and phenotype correlation) into account, novel statistical methods will be needed to better define significance thresholds and control type I error rates in PheWAS 50 . Second, our study highlights the challenge to systematically combine phenotypes from independent disease-agnostic cohorts with various phenotype data sources. While we introduce the concept of meta-PheWAS and demonstrate that mapping phenotypes to interrogate independent PheWAS cohorts may considerably strengthen association signals, there is still a need for standardized terminology, automated phenotype extraction, and coordinated data management across healthcare institutions that will help with better harmonization across cohorts in the future 9 , 51 . A third challenge to the PheWAS approach is inherent to the current limitations of human genetics. Even when starting from a highly-annotated set of loci as in our study, PheWAS may lead to spurious interpretation of association results that can only be ruled out through thorough follow-up 18 . We demonstrate this at the example of LGALS3 and PD. Access to genome-wide association results for systematic fine-mapping and co-localization analyses, functionalization of GWAS loci and the emergence of association data for intermediate phenotypes, e.g., at the protein level, will be needed to help narrow the gap between SNPs and candidate target genes in the future. Finally, a fourth challenge to broadly use PheWAS for drug development is to relate findings from germline variants that impact a target across an individual’s entire lifetime to success of an interventional trial with much shorter observation periods. In the end, many decisions to pursue or discontinue a therapeutic program may remain dependent on the specific risk:benefit ratio that quantitative genetics as applied here may help to predict, and the level of unmet clinical need.

Taken together, our study highlights PheWAS as a highly promising, yet largely untapped opportunity to use disease-agnostic cohorts with extensive health information for drug target validation. We provide several examples that illustrate PheWAS as a powerful strategy to help predict efficacy and unintended drug effects, which should ultimately help to develop better drugs. Whether PheWAS may truly impact decision making during drug development will only become evident with either the emergence of ADEs in trials that genetics could have predicted, or reduced safety-related attrition rates for portfolios enriched in targets nominated through human genetics. The growing number of large-scale population cohorts that link genetic data with extensive health data, together with an increased willingness across the borders of academia, biotech and the pharmaceutical industry to collaborate and share data, will provide opportunities to demonstrate that.


Papers of particular interest, published recently, have been highlighted as: • Of importance •• Of major importance

• Bush WS, Moore JH. Chapter 11: genome-wide association studies. Lewitter F, Kann M, editors. PLoS 컴퓨팅 Biol. 20128(12):e1002822. https://doi.org/10.1371/journal.pcbi.1002822. This provides a basic understanding on designing genome-wide association studies

Visscher PM, Brown MA, McCarthy MI, Yang J. Five years of GWAS discovery. Am J Hum Genet. 201290:7–24.

•• Visscher PM, Wray NR, Zhang Q, Sklar P, McCarthy MI, Brown MA, et al. 10 years of GWAS discovery: biology, function, and translation. Am J Hum Genet. 2017101:5–22. This is an excellent review of the successes and challenges with GWAS over past decade

Loos RJF, Yeo GSH. The bigger picture of FTO—the first GWAS-identified obesity gene. Nat Rev Endocrinol. 201310:51–61.

Dina C, Meyre D, Gallina S, Durand E, Körner A, Jacobson P, et al. Variation in FTO contributes to childhood obesity and severe adult obesity. 냇 제넷. 200739:724–6.

Frayling TM, Timpson NJ, Weedon MN, Zeggini E, Freathy RM, Lindgren CM, et al. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. 과학. 2007 316(5826):889–94.

Jacobsen S, Sonne-Holm S. Increased body mass index is a predisposition for treatment by total hip replacement. Int Orthop. 200529:229–34.

Maes HH, Neale MC, Eaves LJ. Genetic and environmental factors in relative body weight and human adiposity. Behav Genet. 199727:325–51.

•• Denny JC, Ritchie MD, Basford MA, Pulley JM, Bastarache L, Brown-Gentry K, et al. PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations. 생물정보학. 201026:1205–10. This is the first PheWAS performed using EHRs data

•• Ritchie MD, Denny JC, Crawford DC, Ramirez AH, Weiner JB, Pulley JM, et al. Robust replication of genotype-phenotype associations across multiple diseases in an electronic medical record. Am J Hum Genet. 201086:560–72. This study demonstrates the application of EHRs data in genomic studies

Cronin RM, Field JR, Bradford Y, Shaffer CM, Carroll RJ, Mosley JD, et al. Phenomewide association studies demonstrating pleiotropy of genetic variants within FTO with and without adjustment for body mass index. Front Genet 20145.

McCarty CA, Chisholm RL, Chute CG, Kullo IJ, Jarvik GP, Larson EB, et al. The eMERGE network: a consortium of biorepositories linked to electronic medical records data for conducting genomic studies. BMC Med Genet. 2011 Jan 264:13. https://doi.org/10.1186/1755-8794-4-13.

Denny JC, Bastarache L, Roden DM. Phenome-wide association studies as a tool to advance precision medicine. Annu Rev Genomics Hum Genet. 201617:353–73.

Bush WS, Oetjens MT, Crawford DC. Unravelling the human genome–phenome relationship using phenome-wide association studies. Nat Rev Genet. 201617:129–45.

Roden DM. Phenome-wide association studies: a new method for functional genomics in humans: Phenome-wide association studies. J Physiol. 2017595:4109–15. Updated References

Pendergrass SA, Ritchie MD. Phenome-wide association studies: leveraging comprehensive phenotypic and genotypic data for discovery. Curr Genet Med Rep. 20153:92–100.

Mitchell SL, Hall JB, Goodloe RJ, Boston J, Farber-Eger E, Pendergrass SA, et al. Investigating the relationship between mitochondrial genetic variation and cardiovascular-related traits to develop a framework for mitochondrial phenome-wide association studies. BioData Min 20147.

• Basile AO, Wallace JR, Peissig P, McCarty CA, Brilliant M, Ritchie MD. Knowledge driven binning and PheWAS analysis in Marshfield personalized medicine research project using BIOBIN. Pac Symp Biocomput. 201621:249–60. This is the first published rare-variant PheWAS analysis

Liao KP, Sparks JA, Hejblum BP, Kuo I-H, Cui J, Lahey LJ, et al. Phenome-wide association study of autoantibodies to Citrullinated and Noncitrullinated Epitopes in rheumatoid arthritis: PheWAS FOR AUTOANTIBODIES IN RA. Arthritis Rheumatol. 201769:742–9.

Denny JC, Bastarache L, Ritchie MD, Carroll RJ, Zink R, Mosley JD, et al. Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data. Nat Biotechnol. 201331:1102–10.

Denny JC, Crawford DC, Ritchie MD, Bielinski SJ, Basford MA, Bradford Y, et al. Variants near FOXE1 are associated with hypothyroidism and other thyroid conditions: using electronic medical records for genome- and phenome-wide studies. Am J Hum Genet. 201189:529–42.

Hebbring SJ, Schrodi SJ, Ye Z, Zhou Z, Page D, Brilliant MH. A PheWAS approach in studying HLA-DRB1*1501. 유전자 면역. 201314:187–91.

Verma A, Verma SS, Pendergrass SA, Crawford DC, Crosslin DR, Kuivaniemi H, et al. eMERGE Phenome-Wide Association Study (PheWAS) identifies clinical associations and pleiotropy for stop-gain variants. 비엠씨메드. 유전체학. 20169. Available from: http://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-016-0191-8

Verma A, Basile AO, Bradford Y, Kuivaniemi H, Tromp G, Carey D, et al. Phenome- wide association study to explore relationships between immune system related genetic loci and complex traits and diseases. Yao Y-G, editor. 플로스원. 201611(8):e0160573. https://doi.org/10.1371/journal.pone.0160573. eCollection 2016

Verma SS, Lucas AM, Lavage DR, Leader JB, Metpally R, Krishnamurthy S, et al. Identifying genetic associations with variability in metabolic health and blood count laboratory values: diving into the quantitative traits by leveraging longitudinal data from an ehr. Pac Symp Biocomput Pac Symp Biocomput. 201622:533–44.

Shameer K, Denny JC, Ding K, Jouni H, Crosslin DR, de Andrade M, et al. A genomeand phenome-wide association study to identify genetic variants influencing platelet count and volume and their pleiotropic effects. Hum Genet. 2014133(1):95–109. https://doi.org/10.1007/s00439-013-1355-7.

Namjou B, Marsolo K, Caroll RJ, Denny JC, Ritchie MD, Verma SS, et al. Phenomewide association study (PheWAS) in EMR-linked pediatric cohorts, genetically links PLCL1 to speech language development and IL5-IL13 to Eosinophilic Esophagitis. Front Genet 2014 5. Available from: http://journal.frontiersin.org/article/10.3389/fgene.2014.00401/abstract

Ye Z, Mayer J, Ivacic L, Zhou Z, He M, Schrodi SJ, et al. Phenome-wide association studies (PheWASs) for functional variants. Eur J Hum Genet. 201523:523–9.

Pendergrass SA, Brown-Gentry K, Dudek S, Frase A, Torstenson ES, Goodloe R, et al. Phenome-wide association study (PheWAS) for detection of pleiotropy within the population architecture using genomics and epidemiology (PAGE) network. 플로스 제넷. 20139(1):e1003087. https://doi.org/10.1371/journal.pgen.1003087.

Pendergrass SA, Brown-Gentry K, Dudek SM, Torstenson ES, Ambite JL, Avery CL, et al. The use of phenome-wide association studies (PheWAS) for exploration of novel genotype-phenotype relationships and pleiotropy discovery. Genet Epidemiol. 201135:410–22.

Polimanti R, Kranzler HR, Gelernter J. Phenome-wide association study for alcohol and nicotine risk alleles in 26394 women. 신경정신약리학. 201641:2688–96.

Hall MA, Verma A, Brown-Gentry KD, Goodloe R, Boston J, Wilson S, et al. Detection of Pleiotropy through a Phenome-wide association study (PheWAS) of epidemiologic data as part of the environmental architecture for genes linked to environment (EAGLE) study. 플로스 제넷. 201410(12):e1004678. https://doi.org/10.1371/journal.pgen.1004678. eCollection 2014 Dec.

Moore CB, Verma A, Pendergrass S, Verma SS, Johnson DH, Daar ES, et al. Phenomewide association study relating Pretreatment laboratory parameters with human genetic variants in AIDS Clinical Trials Group protocols. O Open Forum Infect Dis. 20152(1):ofu113. https://doi.org/10.1093/ofid/ofu113. eCollection 2015 Jan

Verma A, Bradford Y, Verma SS, Pendergrass SA, Daar ES, Venuto C, et al. Multiphenotype association study of patients randomized to initiate antiretroviral regimens in AIDS Clinical Trials Group protocol A5202: Pharmacogenet. 유전체학. 201727:101–11.

• World Health Organization. History of the development of the ICD [Internet]. Available from: http://www.who.int/classifications/icd/en/HistoryOfICD.pdf. A great review of ICD codes.

Krive J, Patel M, Gehm L, Mackey M, Kulstad E, Li J “John,” et al. The complexity and challenges of the international classification of diseases, ninth revision, clinical modification to international classification of diseases, 10th revision, clinical modification transition in EDs. Am J Emerg Med 201533:713–718.

Kirby JC, Speltz P, Rasmussen LV, Basford M, Gottesman O, Peissig PL, et al. PheKB: a catalog and workflow for creating electronic phenotype algorithms for transportability. J Am Med Inform Assoc. 201623:1046–52.

Crawford DC, Goodloe R, Brown-Gentry K, Wilson S, Roberson J, Gillani NB, et al. Characterization of the Metabochip in diverse populations from the international HapMap project in the epidemiologic architecture for genes linked to environment (EAGLE) project. Pac Symp Biocomput. 2013:188–99.

Emdin CA, Khera AV, Natarajan P, Klarin D, Won H-H, Peloso GM, et al. Phenotypic characterization of genetically lowered human lipoprotein(a) levels. J Am Coll Cardiol. 201668:2761–72.

Hebbring SJ, Rastegar-Mojarad M, Ye Z, Mayer J, Jacobson C, Lin S. Application of clinical text data for phenome-wide association studies (PheWASs). 생물정보학. 201531:1981–7.

Karaca S, Civelek E, Karaca M, Sahiner UM, Ozgul RK, Kocabas CN, et al. Allergyspecific Phenome-wide association study for Immunogenes in Turkish children. Sci Rep. 2016 Sep 146:33152. https://doi.org/10.1038/srep33152.

Klarin D, Emdin CA, Natarajan P, Conrad MF, INVENT consortium, Kathiresan S. Genetic analysis of venous Thromboembolism in UK biobank identifies the ZFPM2 locus and implicates obesity as a causal risk factor. Circ Cardiovasc Genet. 201710(2). https://doi.org/10.1161/CIRCGENETICS.116.001643.

Liu J, Ye Z, Mayer JG, Hoch BA, Green C, Rolak L, et al. Phenome-wide association study maps new diseases to the human major histocompatibility complex region. J Med Genet. 201653:681–9.

Millwood IY, Bennett DA, Walters RG, Clarke R, Waterworth D, Johnson T, et al. A phenome-wide association study of a lipoprotein-associated phospholipase A2 loss-offunction variant in 90 000 Chinese adults. Int J Epidemiol. 201645:1588–99.

Namjou B, Marsolo K, Lingren T, Ritchie MD, Verma SS, Cobb BL, et al. A GWAS study on liver function test using eMERGE network participants. Prokunina-Olsson L, editor. 플로스원. 201510:e0138677.

Ritchie MD, Denny JC, Zuvich RL, Crawford DC, Schildcrout JS, Bastarache L, et al. Genome- and phenome-wide analyses of cardiac conduction identifies markers of arrhythmia risk. 순환. 2013127:1377–85.

Simonti CN, Vernot B, Bastarache L, Bottinger E, Carrell DS, Chisholm RL, et al. The phenotypic legacy of admixture between modern humans and Neandertals. 과학. 201612:737–41.

Wang X, Pandey AK, Mulligan MK, Williams EG, Mozhui K, Li Z, et al. Joint mousehuman phenome-wide association to test gene function and disease risk. 냇 커뮤. 20167:10464.

Millard LAC, Davies NM, Timpson NJ, Tilling K, Flach PA, Smith GD. MR-PheWAS: hypothesis prioritization among potential causal effects of body mass index on many outcomes, using Mendelian randomization. Sci Rep. 20155:16645. https://doi.org/10.1038/srep16645.

Verma A, Leader JB, Verma SS, Frase A, Wallace J, Dudek S, et al. Integrating clinical laboratory measures and ICD-9 code diagnoses in phenome-wide association studies. Pac Symp Biocomput. 201621:168–79.

Dey R, Schmidt EM, Abecasis GR, Lee S. A fast and accurate algorithm to test for binary phenotypes and its application to PheWAS. Am J Hum Genet. 2017101:37–49.

Doss J, Mo H, Carroll RJ, Crofford LJ, Denny JC. Phenome-wide association study of rheumatoid arthritis subgroups identifies association between Seronegative disease and fibromyalgia: PheWAS of rheumatoid arthritis subgroups. Arthritis Rheumatol. 201769:291–300.

Liao KP, Kurreeman F, Li G, Duclos G, Murphy S, Guzman R, et al. Associations of autoantibodies, autoimmune risk alleles, and clinical diagnoses from the electronic medical records in rheumatoid arthritis cases and non-rheumatoid arthritis controls. 관절염 류마티스. 201365:571–81.

Neuraz A, Chouchana L, Malamut G, Le Beller C, Roche D, Beaune P, et al. Phenome- wide association studies on a quantitative trait: application to TPMT enzyme activity and Thiopurine therapy in Pharmacogenomics. Slonim DK, editor. PLoS 컴퓨팅 Biol. 20139:e1003405.

Denny JC, Crawford DC, Ritchie MD, Bielinski SJ, Basford MA, Bradford Y, et al. Variants near FOXE1 are associated with hypothyroidism and other thyroid conditions: using electronic medical Records for Genome- and Phenome-Wide Studies. Am J Hum Genet. 201189:529–42.

Takahashi M, Saenko VA, Rogounovitch TI, Kawaguchi T, Drozd VM, Takigawa-Imamura H, et al. The FOXE1 locus is a major genetic determinant for radiation-related thyroid carcinoma in Chernobyl. 흠 몰 Genet. 201019:2516–23.

Gudmundsson J, Sulem P, Gudbjartsson DF, Jonasson JG, Sigurdsson A, Bergthorsson JT, et al. Common variants on 9q22.33 and 14q13.3 predispose to thyroid cancer in European populations. Nat. 그 가죽. 200941:460–4.

Bush WS, Boston J, Pendergrass SA, Dumitrescu L, Goodloe R, Brown-Gentry K, et al. Enabling high-throughput genotype-phenotype associations in the epidemiologic architecture for genes linked to environment (EAGLE) project as part of the population architecture using genomics and epidemiology (PAGE) study. Pac Symp Biocomput. 2013:373–84.

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, Bender D, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet. 200781:559–75.

Chang CC, Chow CC, Tellier LC, Vattikuti S, Purcell SM, Lee JJ. Second-generation PLINK: rising to the challenge of larger and richer datasets. GigaScience. 20154. Available from: https://academic.oup.com/gigascience/articlelookup/doi/10.1186/s13742-0150047-8

Hall MA, Wallace J, Lucas AM, Kim D, Verma SS, McCarty CA, et al. PLATO software provides analytic framework for investigating complexity beyond genome-wide association studies. Nat. 통신 2017. https://doi.org/10.1038/s41467-017-00802-2

Carroll RJ, Bastarache L, Denny JC. R PheWAS: data analysis and plotting tools for phenome-wide association studies in the R environment. Bioinforma Oxf Engl. 201430:2375–6.

StataCorp. Stata statistical software: release 12. College Station, TX: StataCorp LP 2011.

Lee S, Abecasis GR, Boehnke M, Lin X. Rare-variant association analysis: study designs and statistical tests. Am J Hum Genet. 201495:5–23.

Moore CB, Wallace JR, Frase AT, Pendergrass SA, Ritchie MD. BioBin: a bioinformatics tool for automating the binning of rare variants using publicly available biological knowledge. BMC Med Genet. 20136(Suppl 2):S6. https://doi.org/10.1186/1755-8794-6-S2-S6.

Zhan X, Hu Y, Li B, Abecasis GR, Liu DJ. RVTESTS: an efficient and comprehensive tool for rare variant association analysis using sequence data: table 1. Bioinformatics. 201632:1423–6.

PLINK/SEQ: A library for the analysis of genetic variation data. at [Internet]. Available from: <http://atgu.mgh.harvard.edu/plinkseq/>.

Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Opt. 201434:502–8.

•• Sobota RS, Shriner D, Kodaman N, Goodloe R, Zheng W, Gao Y-T, et al. Addressing population-specific multiple testing burdens in genetic association studies: population-specific genome-wide thresholds. Ann Hum Genet. 201579:136–47. In this study, the authors describe an in-depth approach to identify multiple hypothesis correction thresholds based on different population linkage disequilibrium structures

Grimm DG, Roqueiro D, Salomé PA, Kleeberger S, Greshake B, Zhu W, et al. easyGWAS: a cloud-based platform for comparing the results of genome-wide association studies. 식물 세포. 201729:5–19.

Dai W, Wang Q, Gao M, Zhang L. CloudAssoc: A pipeline for imputation based genome wide association study on cloud. IEEE 2012 [cited 2017 Sep 16]. NS. 1435–8. Available from: http://ieeexplore.ieee.org/document/6526190/

DNAnexus Cloud Platform: A Global Network for Genomics [Internet]. Available from: https://www.dnanexus.com/company

• Solovieff N, Cotsapas C, Lee PH, Purcell SM, Smoller JW. Pleiotropy in complex traits: challenges and strategies. Nat Rev Genet. 2013 Jul14(7):483–95. https://doi.org/10.1038/nrg3461. This is a review on challenges with differentiating true vs false pleiotropy and a review on statistical methods to address such challenges

Smemo S, Tena JJ, Kim K-H, Gamazon ER, Sakabe NJ, Gómez-Marín C, et al. Obesityassociated variants within FTO form long-range functional connections with IRX3. 자연. 2014507:371–5.

Kichaev G, Yang W-Y, Lindstrom S, Hormozdiari F, Eskin E, Price AL, et al. Integrating functional data to prioritize causal variants in statistical fine-mapping studies. Di Rienzo a, editor. 플로스 제넷. 201410:e1004722.

Li Y, Kellis M. Joint Bayesian inference of risk variants and tissue-specific epigenomic enrichments across multiple complex human diseases. 핵산 해상도 201644:e144–4.

Hormozdiari F, Kostem E, Kang EY, Pasaniuc B, Eskin E. Identifying causal variants at loci with multiple signals of association. 유전학. 2014198:497–508.

Zhang Y, An L, Yue F, Hardison RC. Jointly characterizing epigenetic dynamics across multiple human cell types. 핵산 해상도 201644:6721–31.

Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nat 메서드. 20129:215–6.


GWAS and Beyond: Using Omics Approaches to Interpret SNP Associations

Neurodegenerative diseases, neuropsychiatric disorders, and related traits have highly complex etiologies but are also highly heritable identifying the causal genes and biological pathways underlying these traits may advance the development of treatments and preventive strategies. While many genome-wide association studies (GWAS) have successfully identified variants contributing to polygenic neurodegenerative and neuropsychiatric phenotypes including Alzheimer’s disease (AD), schizophrenia (SCZ), and bipolar disorder (BPD) among others, interpreting the biological roles of significantly associated variants in the genetic architecture of these traits remains a significant challenge. Here, we review several ‘omics’ approaches which attempt to bridge the gap from associated genetic variants to phenotype by helping define the functional roles of GWAS loci in the development of neuropsychiatric disorders and traits.

최근 조사 결과

Several common ‘omics’ approaches have been applied to examine neuropsychiatric traits, such as nearest-gene mapping, trans-ethnic fine mapping, annotation enrichment analysis, transcriptomic analysis, and pathway analysis, and each of these approaches has strengths and limitations in providing insight into biological mechanisms. One popular emerging method is the examination of tissue-specific genetically regulated gene expression (GReX), which aggregates the genetic variants’ effects at the gene level. Furthermore, proteomic, metabolomic, and microbiomic studies and phenome-wide association studies will further enhance our understanding of neuropsychiatric traits.

요약

GWAS has been applied to neuropsychiatric traits for a decade, but our understanding about the biological function of identified variants remains limited. Today, technological advancements have created analytical approaches for integrating transcriptomics, metabolomics, proteomics, pharmacology, and toxicology as tools for understanding the functional roles of genetic variants. These data, as well as the broader clinical information provided by electronic health records, can provide additional insight and complement genomic analyses.


배경

Nonalcoholic fatty liver disease (NAFLD) is one of the most common chronic liver diseases, found in 17–30% of the population in Western countries [1]. NAFLD, defined as greater than 5% fatty acid content of liver by weight, includes not only simple and benign steatosis but also the more serious nonalcoholic steatohepatitis (NASH), which may progress to cirrhosis and liver failure in 8 to 26% of adults with NASH [2]. NASH is defined histologically by the presence of macrovesicular steatosis, lobular inflammation, and hepatocellular ballooning. The pathology is often indistinguishable from alcoholic fatty liver disease therefore, the diagnosis can only be made in the absence of significant alcohol use [3]. NAFLD is now recognized as a common metabolic disorder globally as a result of ongoing obesity pandemic. It also increases risk of adverse long-term consequences including death from liver cirrhosis and cardiovascular disease. In fact, NASH is now the second most common indication for liver transplantation in the USA after chronic hepatitis C [4].

Growing evidence has shown that NAFLD can also occur in 10–20% of non-obese population, most often in association with central adiposity, recent weight gain, dietary factors, or genetic risk alleles [5]. In East Asian countries, for example, the incidence and prevalence of NAFLD are increasing with time despite lower rates of obesity compared to Western countries [6]. Hence, it is important to identify the natural course of NAFLD and the contributing factors for the development and maintenance or regression of this disease. The underlying etiology is believed to be multifactorial with a substantial genetic component. The heritability estimates of NAFLD generally range from 20 to 70%, depending on the study design, ethnicity, and the methodology used [7]. Likewise, for indices of disease severity, the heritability estimates in a twin study for hepatic steatosis was 0.52 (based on MRI proton-density fat fraction) and for liver fibrosis (based on liver stiffness) 0.5 [8]. In addition, heritability risk for NAFLD may be independent of body mass index heritability. For example, family studies show that while fatty liver can be present in 17% of siblings and 37% of parents of overweight children without NAFLD, it was significantly more common in siblings (59%) and parents (78%) of children with NAFLD [9]. To date, several genome-wide association studies (GWAS) have been published for this condition mainly in adult cohorts [10,11,12]. One of the established effects is in the PNPLA3 (patatin-like phospholipase domain–containing 3) gene with consistent results across studies in which the rs738409 C>G variant (resulting in an amino acid substitution of methionine for isoleucine at position 148 (I148M)) is strongly associated with this trait. The PNPLA3 protein exerts lipase activity and plays a role in the hydrolysis of glycerolipids, with maximum enzymatic activity against triglycerides, diacylglycerol, and monacylglycerol [13]. Structural modeling suggests that this substitution may occlude access of substrates to the catalytic dyad [14]. However, the exact underlying mechanisms remain unclear.

The electronic medical record (EMR) is a rich source of clinical information. Natural language processing (NLP) techniques have demonstrated successes within the clinical domain and have been tested for transferability to another institution [15]. The electronic MEdical Records and GEnomics (eMERGE) Network, founded in 2007, is a consortium of multiple adult and pediatric institutions developed to explore the utility of DNA biorepositories linked to EMRs as well as establishing and validating specific algorithms with and without NLP for many common phenotypes [16]. In this study, we investigated the genetic variants associated with NAFLD/NASH in children and adults using phenotypic measures extracted from medical records in a collection of already genotyped samples from more than 80,000 eMERGE participants to replicate prior studies and identify additional genetic loci.


Additional file 1.

Additional file 2: Table S1.

Differential expression analysis of 에이스2 in relation to clinical variables (A) and genomic signatures (B) in SPIROMICS, SARP, and MAST. 표 S2. Top 100 genes co-expressed with 에이스2 after adjustments in SPIROMICS (A), SARP (B), and MAST (C). The genes in the IL-17 signature are highlighted in yellow. 표 S3. Canonical pathway gene sets based on differentially downregulated genes between SARS-CoV-2 infection and other viral illness using the Ingenuity Pathway Analysis canonical pathway function. 표 S4. Association between canonical pathway gene sets from Table S3 and comorbidities in SPIROMICS (A), SARP (B), and MAST (C). Leading edge genes are enriched in association with the given comorbidity. 표 S5. Canonical pathway gene sets based on genes enriched in association with each comorbidity using the Ingenuity Pathway Analysis canonical pathway function. A – cardiovascular condition in SPIROMICS, B – hypertension in SPIROMICS, C – obesity in SPIROMICS, D - hypertension in SARP, E – obesity in SARP. 표 S6. COVID-19-related genes from Blanco-Melo et al. 2020, Gassen et al. 2020, Gordon et al. 2020, Hoffmann et al. 2020, Wang et al. 2020, and COVID-19 Cell Atlas. 표 S7. Summary statistics of eQTL mapping in bronchial epithelium in SPIROMICS, including eQTL effect sizes, and lookup analysis from GTEx and eQTLGen Consortium. 표 S8. Lookup of COVID-19-related genes with 시스-eQTLs in bronchial epithelium from GTEx v8. Effect size measured as allelic fold change (log2) is given for every gene with FDR < 0.05 in GTEx v8 and its lead eQTL, or set to NA otherwise. 표 S9. Pathway analysis of 492 eGenes from SPIROMICS not tested in GTEx Lung. 표 S10. pheWAS of eQTLs for COVID-19-related genes in bronchial epithelium with Phenoscanner v2. 표 S11. pheWAS of eQTLs for COVID-19-related genes in bronchial epithelium in (A) non-Hispanic White individuals (N = 1980) and (B) Hispanic and non-Hispanic, non-White individuals (N = 696) in SPIROMICS for 20 phenotypes. 표 S12. Results of the colocalization analysis of the eQTLs in bronchial epithelium and COVID-19-relevant phenotypes.

Additional file 3: Figure S1.

Associations between 에이스2 gene expression and COPD, asthma, steroid use, and race. 그림 S2. Associations between 에이스2 gene expression and obesity. 그림 S3. Associations between 에이스2 gene expression and hypertension, and use of antihypertensives. 그림 S4. Associations between age and 에이스2 gene expression, and age and differential 에이스2 exon usage. 그림 S5. Associations between age and smoking status, hypertension, sex, and BMI in SPIROMICS. 그림 S6. COVID-19 and other viral illness related gene set enrichment analyses in association with comorbidities in SPIROMICS, SARP, and MAST. 그림 S7. Regulatory genetic effects of 에이스2 그리고 TMPRSS2, and the effect of smoking on TMPRSS2. 그림 S8. Associations between COVID-19-related genes and comorbidities. 그림 S9. Replication of 시스-eQTLs in GTEx. 그림 S10. Regulatory genetic effects of the candidate genes in the chr3 cluster associated with COVID-19. 그림 S11. PheWAS associations for the 44 out of 108 lead 시스-eQTLs associated with COVID-19-related genes with Phenoscanner v2.

Additional file 4: Supplementary Note.

NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium Banner Authorship List.


비디오 보기: 게놈 전반에 걸친 연관성 연구 - 초보자를 위한 설명 (팔월 2022).