오픈 데이터의 종류와 형식

YunGyu Choi·2023년 1월 21일
0

Data Science

목록 보기
3/10

스프레드 시트(SpreadSheet)

  • 많은 정부기관이 엑세과 같은 스프레드시트로 정보를 관리
  • 스프레드시트는 서로 다른 컬람의 의미를 올바르게 기술하기 위해 사용 가능
  • 스프레드시트안에 다루기 어려운 매크로와 공식이 있기 때문에, 사용자가 읽기 쉽도록 해당 스프레드시트와 함께 계산 공식을 제공하는 것이 바람직

CSV(comma-separated values)

  • CSV파일은 간결하고 동일한 구조로 대용량 데이터 집합을 전송하기 위해 적합하기 땜누에 매우 유용한 형식
  • CSV로 표현된 데이터는 별도의 문서가 없을 경우 서로 다른 칼럼의 중요성을 추측하기 어려움(유용성이 떨어질 수 있음)
  • 콤마로 구분된 형식에 따라 개별 필드에 대한 정확한 문서화가 중요
  • 파일 구조가 침해받아 CSV파일에서 하나의 필드가 삭제되면 나머지 데이터를 해석하기 위한 방법이 없기 때문에 파일 수정 없이는 남은 데이터의 해석에 문제 발생
  • TSV(tap-separated values)파일 : 탭으로 분류된 파일

HTML(Hyper Text Markup Language)

  • 웹 페이지를 위한 마크업 언어
  • 제목, 단락, 목록 등과 같은 본문을 위한 구조적인 의미를 나타는 것뿐만 아니라 링크, 인용과 그밖의 항목으로 구조적 문서를 만들 수 있는 방법 제공
  • 이미지와 객체를 내장하고 대화형양식을 생성하는데 사용

XML(eXtensible Markup Language)

  • 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어
  • 다른 많은 종류의 데이터를 기술하는데 사용할 수 있음
  • 데이터 상호교환을 위해 폭넓게 사용되는 포맷
  • 데이터 구조를 유지하는데 유리하여 개발자는 파일을 읽는 간섭없이 데이터에 문서의 일부 작성 가능

Json(JavaScript Object Notation)

  • 속성-값 쌍 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포멧
  • 비동기 브라우저/서버통신(AJAX)을 위해 XML을 대체하는 주요 포멧
  • 인터넷에서 자료를 주고받을 때 그 자료를 표현하는 방법으로 알려져 있음
  • 어떤 프로그래밍 언어로도 읽을 수 있는 단순한 파일 포맷
  • XML같은 포맷보다 컴퓨터가 처리하기 쉬움

RDF(Resource Description Framework)

  • 다수의 자료원으로부터 데이터를 쉽게 조합할 수 있는 형식으로 데이터 표현 가능
  • RDF데이터는 여러 가지 직렬화 방법이 있으며 XML과 JSON으로 저장 가능
  • RDF는 웹에 있는 오픈 데이터를 서로 연결하는데 편리한 방법을 제공

문서(Documents)

  • 일관적으로 구조를 유지하지 않으며, 자동적으로 데이터르 입력하기 어려움
  • 데이터르 재사용할 수 있도록 문서 기준의 템플릿으 사용한다면, 최소한 정보를 문서 밖으로 추출 가능
  • 일반적으로 다른 포맷으로 데이터가 있다면, 워드프로세스 포맷으로 표현하는 것을 추천하지 않음

일반 텍스트(Plain Text)

-일반 텍스트문서는 컴퓨터가 읽기 매우 쉬움

  • 문서 내에 구조화된 메타데이터를 갖지 않음
  • 개발자는 개별문서를 처리할 수 있는 파서를 개발할 필요가 있음
  • 운영체제 사이에서 일반 텍스트 문서를 전환할 때 문제가 생길 수 있음

전용형식

  • 전용 시스템은 데이터를 저장하고 추출할 수 있는 독립적인 데이터 포맷을 갖고 있음
  • 이와 같은 포맷으로 데이터를 노출시키는 경우가 종종 있음
  • 데이터를 유사한 시스템에서 사용할 것으로 기대된다면, 전용 포맷에서만 찾을 수 있는 정보는 항상 표시해야함




참조

profile
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!

0개의 댓글