생성형 AI, 임상시험에 미치는 위험과 기회

JNPMEDI Blog
5 min readSep 13, 2023

--

(본 포스트는 아주경제 ‘전문가 기고’에 게재된 김민석 제이앤피메디 사업본부장의 기고문 입니다.)

OpenAI가 개발한 프로토타입 대화형 인공지능 챗봇인 ChatGPT의 광풍이 여전히 식을 줄 모르고 있다. 베타 서비스를 출시한 지 이제 겨우 8개월이 지났을 뿐이지만, 그 기간 동안 불러온 변화는 실로 혁명적이었으며 연일 다양한 화제를 쏟아내고 있다. 알파고 등장 이후 잠시 잠잠했던 AI산업은 ChatGPT의 등장으로 인해 재편되고 있다고 해도 과언이 아니다. 지난 10여 년간 AI 기술은 급속도로 발전했으며, 특히 생성형 AI 기술은 이공학 분야를 넘어 법률, 문화, 예술에 이르기까지 산업 전반으로 적용 영역을 확대함으로써 업무 혁신의 새로운 장을 제시하고 있다.

임상시험 분야 또한 최근 들어 AI 기술 적용을 위한 다양한 시도를 하고 있는 중이다. 글로벌 제약사에서는 AI 모델을 통한 시뮬레이션을 바탕으로 다양한 임상시험 조건을 시도하여 효과적인 조건을 찾는데 활용하고 있다. 막대한 양의 임상시험 데이터를 기반으로 학습된 AI 모델은 최적의 국가, 시험기관, 모집 규모를 시뮬레이션하고 효율적인 임상을 수행토록 지원하고 있으며, 더 나아가 새로운 환자나 시험 조건에 대한 결과를 예측하는데도 활용되고 있다.

AI로 가상의 환자군을 만들어내기도 한다. 임상시험에서는 약의 효과를 증명하기 위해 위약을 투여할 대조 환자군을 모집하지만, 희귀암이나 난치병은 환자가 적고 생사가 걸린 환자에게 위약을 투여하는 것에 대한 윤리적 문제 때문에 대조군 모집이 어렵다. 이러한 경우 AI 기술을 통해 과거 환자 데이터를 바탕으로 한 가상의 환자군(합성대조군, Synthetic Control Arm)을 만들어 임상시험에 적용하고 있다.

생성형(Generative) AI 기술이 더해지면서 AI가 임상시험 분야에 미치는 영향력은 나날이 커져가고 있다. 생성형 AI 는 사람이 AI에게 특정 입력을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞추어 결과를 만들어주는 인공지능을 의미한다. 이 과정에서 생성형 AI는 머신 러닝 및 딥 러닝 기반의 알고리즘을 사용하며, 이를 통해 생성되는 콘텐츠는 서면 자료, 이미지, 비디오, 음악, 컴퓨터 코드 등 다양한 형태로 표현된다.

임상시험 분야에서도 생성형 AI 기술의 특성을 활용한 서비스들이 속속 등장하는 중이다. 마이크로소프트 자회사인 뉘앙스(Nuance) 커뮤니케이션즈의 ‘DAX 익스프레스’는 OpenAI의 GPT-4 모델을 바탕으로 개발된 어플리케이션이며, 환자와 대화한 내용을 AI가 음성인식하여 임상기록 초안을 자동으로 생성한다. 임상의는 해당 문서를 즉시 검토 및 수정함으로써 행정 업무의 부담을 줄이고, 본연의 업무에 집중할 수 있다.

언런.AI(Unlearn.AI)는 이미지 생성에 활용되는 AI 알고리즘을 통해 임상시험 환자 특성을 복제한 디지털 트윈(현실세계의 기계, 장비, 사물 등을 컴퓨터 속 가상세계에 동일하게 구현한 것을 의미)을 생성하고 환자의 건강 결과를 예측하는 서비스를 제공한다. 언런.AI의 서비스는 특정 질병의 과거 데이터, 현실 데이터, 치료법을 통한 질병 진행 방식 등을 AI 알고리즘에 넣어 학습시킨다. 이후 임상시험에 참여하는 환자의 특성 데이터를 등록하면, 해당 환자에게 임상시험 과정에서 발생할 수 있는 시뮬레이션을 생성하게 된다. 이를 통해 임상시험을 통한 치료를 받지 않았을 때의 결과를 예측하고, 대조군 숫자를 줄임으로써 효율적인 연구가 진행될 수 있다.

임상시험 문서들을 요약하고 작성하는 업무에도 생성형 AI 기술이 활용되고 있다. 자연어 처리에 기반한 LLM(Large Language Model)은 대용량의 임상시험 문서 데이터를 학습하고, 문장의 의미를 이해하며 핵심 정보를 추출하거나 요약한다. 이를 기반으로 임상시험 결과 요약이나, 보고서 작성 등 관련 문서들을 신규 생성할 수 있다.

임상시험 분야의 생성형 AI 기술은 연구자들의 의사결정을 위한 시간과 노력을 줄이는데 기여할 수 있지만, 우려와 위험도 존재한다. 23년 5월, 세계보건기구(WHO)는 의료분야에서의 LLM은 다양한 순기능이 있으나, 엄격한 검증과 감독이 필요하다는 입장을 표명했다. 이같은 WHO의 성명은 ChatGPT을 바라보는 관점이 활용 가능성 모색 단계를 넘어 임상 현장 적용 및 검증 단계로 접어드는 추세에서 나온 발표라는 점에서 주목할 만하다. WHO가 의료분야에서 LLM을 사용시 엄격한 주의를 요구하는 이유로는 △학습데이터의 편향성 및 오류 가능성, △허위정보 생성 및 유포, 오용 가능성, △건강관련 민감정보 유출 가능성 등을 언급하고 있다. 23년 2월, 세계적인 학술 논문지 Nature 에서도 의학 분야의 생성형 AI 콘텐츠의 위험을 언급하며, 생성 모델의 정확도 부족으로 문제가 발생함을 지적한 바 있다.

정보보호 및 보안 문제도 생성형 AI 의 적용을 주저하게 되는 요소이다. AI 모델을 구축하는 데 사용되는 데이터에는 개인데이터, 약물정보 등과 같은 임상시험의 기밀정보가 포함될 수 있기 때문이다. 이는 외부로의 정보 유출 시 법적 문제까지 야기시킬 수 있는 위험성을 내포한다. 의료 분야 사례는 아니지만, 23년 7월에는 개인정보보호위원회에서 ChatGPT 이용자들의 개인정보를 유출하고도 국내에 신고하지 않은 OpenAI에 대해 신고 의무 위반으로 과태료를 부과한 바 있다.

그러나 이제는 AI 도입에 대한 우려사항들을 인지하고, 데이터 품질 향상, 편향성 감소, 관련 규제 및 가이드라인 등의 대응책을 마련하는 것이 보다 중요해지고 있다. 최근 발전 속도로 보아 몇 년 후에는 대량의 축적 데이터를 바탕으로 임상시험의 주요한 조건을 입력하면 그에 맞는 프로토콜(임상시험 계획서)을 작성하고, 이를 근간으로 증례기록서나 동의서 등의 관련 문서들을 생성하는 것도 가능해질 지 모른다. 생성형 AI가 인간의 지능을 뛰어넘는 가상의 시점인 특이점(Singularity)으로 이어질지 여부는 아직 미지수지만, 앞으로의 임상시험 산업에 큰 영향을 미칠 것이며 활용 영역이 무한히 확장될 것이라는 점은 더욱 분명해지고 있다.

--

--