비전공자의 비밀노트 - 비비
로그인
비전공자의 비밀노트 - 비비
로그인
오픈 데이터의 종류와 형식
YunGyu Choi
·
2023년 1월 21일
팔로우
0
Data Science
0
Data Science
목록 보기
3/10
스프레드 시트(SpreadSheet)
많은 정부기관이 엑세과 같은 스프레드시트로 정보를 관리
스프레드시트는 서로 다른 컬람의 의미를 올바르게 기술하기 위해 사용 가능
스프레드시트안에 다루기 어려운 매크로와 공식이 있기 때문에, 사용자가 읽기 쉽도록 해당 스프레드시트와 함께 계산 공식을 제공하는 것이 바람직
CSV(comma-separated values)
CSV파일은 간결하고 동일한 구조로 대용량 데이터 집합을 전송하기 위해 적합하기 땜누에 매우 유용한 형식
CSV로 표현된 데이터는 별도의 문서가 없을 경우 서로 다른 칼럼의 중요성을 추측하기 어려움(유용성이 떨어질 수 있음)
콤마로 구분된 형식에 따라 개별 필드에 대한 정확한 문서화가 중요
파일 구조가 침해받아 CSV파일에서 하나의 필드가 삭제되면 나머지 데이터를 해석하기 위한 방법이 없기 때문에 파일 수정 없이는 남은 데이터의 해석에 문제 발생
TSV(tap-separated values)파일 : 탭으로 분류된 파일
HTML(Hyper Text Markup Language)
웹 페이지를 위한 마크업 언어
제목, 단락, 목록 등과 같은 본문을 위한 구조적인 의미를 나타는 것뿐만 아니라 링크, 인용과 그밖의 항목으로
구조적 문서
를 만들 수 있는 방법 제공
이미지와 객체를 내장하고 대화형양식을 생성하는데 사용
XML(eXtensible Markup Language)
다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어
다른 많은 종류의 데이터를 기술하는데 사용할 수 있음
데이터 상호교환을 위해 폭넓게 사용되는 포맷
데이터 구조를 유지하는데 유리하여 개발자는 파일을 읽는 간섭없이 데이터에 문서의 일부 작성 가능
Json(JavaScript Object Notation)
속성-값 쌍 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포멧
비동기 브라우저/서버통신(AJAX)을 위해 XML을 대체하는 주요 포멧
인터넷에서 자료를 주고받을 때 그 자료를 표현하는 방법으로 알려져 있음
어떤 프로그래밍 언어로도 읽을 수 있는 단순한 파일 포맷
XML같은 포맷보다 컴퓨터가 처리하기 쉬움
RDF(Resource Description Framework)
다수의 자료원으로부터 데이터를 쉽게 조합할 수 있는 형식으로 데이터 표현 가능
RDF데이터는 여러 가지 직렬화 방법이 있으며 XML과 JSON으로 저장 가능
RDF는 웹에 있는 오픈 데이터를 서로 연결하는데 편리한 방법을 제공
문서(Documents)
일관적으로 구조를 유지하지 않으며, 자동적으로 데이터르 입력하기 어려움
데이터르 재사용할 수 있도록 문서 기준의 템플릿으 사용한다면, 최소한 정보를 문서 밖으로 추출 가능
일반적으로 다른 포맷으로 데이터가 있다면, 워드프로세스 포맷으로 표현하는 것을 추천하지 않음
일반 텍스트(Plain Text)
-일반 텍스트문서는 컴퓨터가 읽기 매우 쉬움
문서 내에 구조화된 메타데이터를 갖지 않음
개발자는 개별문서를 처리할 수 있는 파서를 개발할 필요가 있음
운영체제 사이에서 일반 텍스트 문서를 전환할 때 문제가 생길 수 있음
전용형식
전용 시스템은 데이터를 저장하고 추출할 수 있는 독립적인 데이터 포맷을 갖고 있음
이와 같은 포맷으로 데이터를 노출시키는 경우가 종종 있음
데이터를 유사한 시스템에서 사용할 것으로 기대된다면, 전용 포맷에서만 찾을 수 있는 정보는 항상 표시해야함
참조
https://www.youtube.com/watch?v=bIXyIv-gIbo&list=PL7ZVZgsnLwEGnhhjdZ2LH9LyBbDQoxaPk&index=4
YunGyu Choi
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!
팔로우
이전 포스트
데이터 구조와 종류
다음 포스트
데이터 시대와 데이터 과학
0개의 댓글
댓글 작성