[논문리뷰] Health Natural Language Processing: Methodology Development and Applications

temp·2021년 12월 31일

AI Medical AI NLP Survey paper paper-review

Medical AI

목록 보기

4/9

Paper: https://medinform.jmir.org/2021/10/e23898/

0. Abstract

정보 관련 기술이 너무나 빠르게 발달하고 있기 때문에, 역시 상당히 많은 양의 health data도 처리할 필요가 있습니다.
특히, 진단 텍스트(diagnosis text), 퇴원 요약서(discharge summaries), 온라인 의학 토론, 임상 시험의 자격 기준 등 많은 양의 가치 있는 natrual text가 존재합니다.
현재는 NLP분야와 Health Care 분야 간 교집합에 해당하는 Health natural language processing이 방법론 개발 / 산업 응용 등에 중요한 역할을 하고 있습니다.

해당 서베이 페이퍼는 health-NLP와 의학 분야에서의 응용에 대해 최신 방법론들을 다룹니다.

JMIR Medical Informatics에 투고된 페이퍼들만 다루는 듯 합니다.

Keyword: *health care; unstructured text; natural language processing; methodology; application

1. Introduction

의학 분야에서 Text data는 unstructured format으로 많이 주어지는데, 여기에는 NLP 테크닉들이 꽤나 유용하게 쓰일 수 있습니다.

Aggregation and summarization of patient notes
treatment analysis
information extraction and retrieval from massive discharge summaries
semantic understanding of patient queries

또한, NLP는 자동적으로 많은 양을 분석함으로써 의사 결정에도 도움이 되고, 적절한 행동을 취하게끔 해줍니다.

가령, Velupillai et al은 semantic analysis, covering the development of efficient methods for health corpus annotation/deidentification, 그리고 임상 환경에서의 NLP 활용 등 최근의 발전된 연구들을 리뷰했습니다.

Kalyan and Sangeetha는 health NLP를 위한 임베딩을 위주로 다루었습니다(for text representation).

그 외에도, 많은 컴피티션과 여러가지 Tool들을 배포하고 있는 상황입니다.

예를 들어, OHNLP나 Apaches cTAKEs.
주로 전자의무기록에서 정보를 추출하거나, 주석을 달아주거나, information을 아~주 잘 처리하는 NLP 시스템을 다루거나...

2. Methods

Health NLP는 다양한 의료 분야 주제를 다루는 데 도움이 됩니다.

의료 정보 검색 및 추출
NLP기반 정보 통합 & 추상화 & 요약
텍스트 마이닝
지식 기반 표현 및 추론
의료 텍스트 코퍼스 구축 및 주석처리
지식 기반 그래프 및 의학적 온톨로지.

뿐만 아니라, 당연하게도 의료 개인화를 위해 기존의 NLP 테크닉들을 사용할 수 있습니다.

의료분야를 위한 Question & Answering 기법
의학/소셜 분야 해석 및 시각화를 위한 툴
모바일 환경에서의 혁신적인 헬스 케어 응용
의사결정 보조로서의 NLP
임상 환경에서 쓰일 수 있는 여러가지 진보된 NLP 방법들

3. Results

3.1. Medical Information Extraction

의학 정보 추출(Medical Information Extraction)은 의료 정보학의 기반을 책임지는 핵심 기술입니다.

중국 연구긴 하지만, Zhang et al은 중국어 EMR 데이터셋을 구축해, 6개 가량의 entity와 BERT를 활용해 Chinese medical entity recognition하는 방법론을 제안했습니다.

2018년 SoTA라곤 하는데 중국 벤치마크는 관심이,,

또한, 화학물질과 질병 사이의 관계를 자동적으로 추출하는 모델 또한 biomedical text mining 분야에서 중요한 역할을 하고 있습니다.
(graph convolution에 대한 얘기 생략)

Temporal infromation는 질병의 진행상황, 처방전, 의약품, 수술진행과정, 퇴원 요약 등 내러티브한 clinical text로 많이 나타나 있습니다.
이런 (비교적 unstructued text인) 자연어를 잘 분석하고 이해해, temporal expressions(시간적 표현(?))을 추출하고, 정규화한다면, 임상 분야 연구든, 아니면 실용적인 상황이든, 굉장한 도움이 될 것입니다.

Pan et al은 rule-based, patten learning-based 모델을 활용해 중국어 narrative clinical text로부터 temporal expressions을 추출하고 정규화하는 모델을 제안했습니다.

extraction -> classification -> normalization

이렇듯, 의료 정보를 추출하는 연구들은 굉장히 많지만, 여전히 아래와 같은 문제들을 지니고 있씁니다.

핛브 데이터 부족
복잡한 의학 용어
많은 노이즈 데이터(free-text form)
data type의 난잡함

3.2. Health Knowledge Graph and its Application

놀리지그래프 생략

3.3. NLP Methods for Heatlh Text Mining

3.4. Advanced Applications

아...

무슨 연구가 다 중국 특화 연구네요..

그만 읽는걸로

temp

이전 포스트

[논문정리] Survey : Survey papers for Clincal NLP(for 6 papers)

다음 포스트