6장. 데이터 타입

Deah (김준희)·2024년 4월 16일
0
post-thumbnail

데이터 타입(Data Type)이란?
자료형이라고도 부르며, 컴퓨터 과학이나 프로그래밍 언어에서 실수, 정수, 불린 자료형 등의 여러 종류의 데이터를 식별하는 분류. 더 나아가 해당 자료형에 대한 가능한 값, 해당 자료형에서 수행을 마칠 수 있는 명령들, 데이터의 의미, 해당 자료형의 값을 저장하는 방식을 의미한다.

자바스크립트의 모든 값(value)은 데이터 타입을 가지며, 자바스크립트는 7개의 데이터 타입을 제공한다. 그리고 이 데이터 타입은 원시형과 참조형으로 분류할 수 있다.

  • 원시형 (Primitive type)
    • 숫자 (Number) : 정수와 실수 구분 없이 하나의 숫자 타입만 존재
    • 문자열 (String) : 문자열
    • 불리언 (Boolean) : 논리적 참과 거짓 (true, false)
    • undefined : var 키워드로 선언된 변수에 암묵적으로 할당되는 값
    • null : 값이 없다는 것을 의도적으로 명시할 때 사용하는 값
    • Symbol : ES6에서 추가된 심볼 타입
  • 참조형 (Reference type)
    • 객체 (Object)
    • 함수 (Function)
    • 배열 (Array)
1
'1'

숫자 타입의 1과 문자열 타입의 '1'은 비슷해보이지만 전혀 다른 값이다.
숫자 타입은 주로 산술 연산을 위해 생성하지만 문자열 타입은 주로 텍스트를 화면에 출력하기 위해 생성한다.
또한 확보해야 할 메모리 공간의 크기와, 메모리에 저장되는 2진수, 2진수를 해석하는 방식도 다르다.

이처럼 개발자는 명확한 의도를 가지고 타입을 구별하여 값을 생성하고, 자바스크립트 엔진은 타입을 구별해서 값을 취급한다.


6.1 숫자 타입

C언어나 Java는 정수와 실수를 구분하여 int, long, float, double 등과 같이 다양한 숫자 타입을 제공한다. 하지만 자바스크립트는 독특하게도 하나의 숫자 타입만 존재한다.

var integer = 10;
var double = 10.12;
var negative = -20;

ECMAScript에 따르면 숫자 타입의 값은 배정밀도 64비트 부동소수점 형식을 따른다.
즉, 모든 수를 실수로 처리하며 정수만 표현하기 위한 데이터 타입이 별도로 존재하지 않는다.

var binary = 0b01000001;   // 2진수
var octal = 0o101;         // 8진수
var hex = 0x41;            // 16진수
console.log(binary);             // 65
console.log(octal);              // 65
console.log(hex);                // 65
console.log(binary === octal);   // true
coonsole.log(octal === hex);     // true

정수, 실수, 2진수, 8진수, 16진수 리터럴은 모두 메모리에 배정밀도 64비트 부동소수점 형식의 2진수로 저장된다. 자바스크립트는 2진수, 8진수, 16진수를 표현하기 위한 데이터 타입을 제공하지 않기 때문에 이 값들을 참조하면 모드 10진수로 해석된다.

console.log(1 === 1.0);   // true
console.log(4 / 2);       // 2
console.log(3 / 2);       // 1.5

자바스크립트는 모든 수를 실수로 처리한다. 정수로 표시되더라도 사실은 실수이다.
따라서 정수로 표시된느 수끼리 나누더라도 실수가 나올 수 있다.

추가적으로 숫자 타입은 아래 세 가지의 특별한 값도 표현할 수 있다.

  • Infinity : 양의 무한대
  • -Infinity : 음의 무한대
  • NaN : 산술 연산 불가 (not-a-number)
console.log(10 / 0);         // Infinity
console.log(10 / -1);        // -Infinity
console.log(1 * 'String');   // NaN
var x = NAN;   // ReferenceError: NAN is not defined
var y = Nan;   // ReferenceError: Nan is not defined
var z = nan;   // ReferenceError: nan is not defined

자바스크립트는 대소문자를 구별하기 때문에 NaNNAN, Nan, nan 과 같이 표현할 경우 에러가 발생하므로 주의해야 한다. 자바스크립트는 NAN, Nan, nan 을 값이 아닌 식별자로 해석한다.


6.2 문자열 타입

문자열 타입은 텍스트 데이터를 나타내는 데 사용한다.
문자열은 0개 이상의 16비트 유니코드 문자(UTF-16)의 집합으로 전세계 대부분의 문자를 표현할 수 있다.

'문자열'
"문자열"
`문자열`

문자열을 표현할 때에는 작은따옴표(''), 큰따옴표(""), 백틱(``)으로 감싸서 표현하며,
자바스크립트에서 가장 일반적인 문자열 표기법은 작은 따옴표를 사용하는 것이다.

var str = hello;   // ReferenceError: hello is not defined

다른 타입의 값과 달리 문자열을 따옴표로 감싸는 이유는 키워드나 식별자와 같은 토큰과 구분하기 위해서다. 만약 따옴표로 감싸지 않을 경우 자바스크립트 엔진은 해당 문자열을 키워드나 식별자 같은 토큰으로 인식한다. 그리고 따옴표로 문자열을 감싸지 않는다면 스페이스와 같은 공백 문자도 포함시킬 수 없다.

C언어는 문자열을 배열로 표현하고, Java는 문자열을 객체로 표현한다.
그러나 자바스크립트의 문자열은 원시 타입이며, 변경 불가능한 값(immutable value)이다.
문자열이 생성되면 그 문자열을 변경할 수 없다는 것을 의미한다.


6.3 템플릿 리터럴

ES6부터 템플릿 리터럴(template literal)이라는 새로운 문자열 표기법이 도입되었다.

템플릿 리터럴은 멀티 라인 문자열(multi-line string), 표현식 삽입(expresstion interpolation), 태그드 템플릿(tagged template) 등의 편리한 문자열 처리 기능을 제공하며, 런타임 시점에 일반 문자열로 변환되어 처리된다.

var template = `Template Literal`;
console.log(template);   // Template Literal

템플릿 리터럴은 일반 문자열과 비슷해 보이지만 일반적인 따옴표 대신 백틱(``)을 사용해 표현한다.

멀티라인 문자열

var str = 'Hello
world!;

// SyntaxError: Invalid or unexpected token

일반 문자열 내에서는 줄바꿈(개행)이 허용되지 않는다.
따라서 줄바꿈 등의 공백을 표현하기 위해서는 백슬래시( \ )로 시작하는 이스케이프 시퀀스를 사용해야 한다.

이스케이프 시퀀스

예를 들어, 줄바꿈과 들여쓰기가 적용된 HTML 코드는 일반 문자열에서 다음과 이스케이프 시퀀스를 사용해 작성할 수 있다. 그러나 템플릿 리터럴에서는 이스케이프 시퀀스를 사용하지 않고도 줄바꿈이 허용되며, 모든 공백도 그대로 적용된다.

  • 일반 문자열 사용
var template = '<ul>\n\t<li><a href="#">Home</a></li>\n</ul>';
console.log(template);
<ul>
	<li><a href="#">Home</a></li>
</ul>
  • 템플릿 리터럴 사용
var template = `<ul>
	<li><a href="#">Home</a></li>
</ul>
`
console.log(template);
<ul>
	<li><a href="#">Home</a></li>
</ul>

표현식 삽입

문자열은 문자열 연산자 +를 사용해 연결할 수 있다.

var first = 'Hello';
var last = 'World!'
console.log(first + ' ' + last);   // Hello World!

+ 연산자는 피연산자 중 하나 이상이 문자열일 경우 문자열 연결 연산자로 동작한다.
(그 외에는 덧셈 연산자로 동작!)

console.log(`${first} ${last}`);   // Hello World!

템플릿 리터럴 내에서는 표현식 삽입을 통해 간단히 문자열을 삽입하여 일반 문자열 연산자보다 가독성이 좋고, 간편하게 문자열을 조합할 수 있다. 표현식 삽입을 위해서 ${ } 으로 표현식을 감싸 사용하며, 이때 표현식의 평가 결과가 문자열이 아니더라도 문자열 타입으로 강제 변환되어 삽입된다.

console.log(`1 + 2 = ${1 + 2}`);   // 1 + 2 = 3
console.log('1 + 2 = ${1 + 2}');   // 1 + 2 = ${1 + 2}

표현식 삽입은 반드시 템플릿 리터럴 내에서 사용해아 하며 일반 문자열에서 표현식 삽입을 사용할 경우 문자열로 취급된다.


6.4 불리언 타입

var flag = true;
console.log(flag);   // true

flag = false;
console.log(flag);   // false

불리언 타입은 논리적 참과 거짓을 나타내는 true, false 뿐이다.
불리언 타입의 값은 참과 거짓으로 구분되는 조건에 의해 프로그램의 흐름을 제어하는 조건문에서 자주 사용한다.


6.5 undefined 타입

var foo;
console.log(foo);   // undefined

var 키워드로 선언한 변수는 암묵적으로 undefined 로 초기화된다. 즉 변수 선언에 의해 확보된 메모리 공간을 처음 할당이 이 뤄질 때까지 빈 상태로 내버려두지 않고 자바스크립트 엔진이 undefined 로 초기화된다. 따라서 변수를 선언한 이후 값을 할당하지 않은 변수를 참조하면 undefined 가 반환된다.

이처럼 undefined 는 개발자가 의도적으로 할당하기 위한 값이 아닌 자바스크립트 엔진이 변수를 초기화할 때 사용하는 값이다. 변수를 참조했을 때 undefined 가 반환된다면 해당 변수가 선언 이후 값이 할당된 적이 없는, 즉 초기화되지 않은 변수라는 것을 알 수 있다.

undefined 를 개발자가 의도적으로 변수에 할당한다면 undefined 의 본래 취지와 어긋나기 때문에 혼란을 야기할 수 있으므로 권장하지 않는다. 변수에 값이 없다는 것을 명시하고 싶을 때는 undefined 대신 null 을 할당한다.

선언(declaration)과 정의(definition)
undefined 를 직역하면 "정의되지 않은"이다. 자바스크립트의 undefined 에서 말하는 정의란 변수에 값을 할당하여 변수의 실체를 명확히 하는 것을 말한다. 다른 프로그래밍 언어에서는 선언과 정의를 엄격히 구분하여 사용하는 경우가 있다. C언어에서 선언과 정의는 "실제로 메모리 주소를 할당하는가"로 구분한다. 단순히 컴파일러에게 식별자의 존재를 알리는 것은 선언이며, 실제로 컴파일러가 변수를 생성하여 식별자와 메모리 주소가 연결되는 정의로 구분한다. 자바스크립트의 경우 변수를 선언하면 암묵적으로 정의가 이뤄지기 때문에 선언과 정의의 구분히 모호하다. ECMAScript에서 변수는 '선언한다'로 표현하고, 함수는 '정의한다'로 표현한다.


6.6 null 타입

자바스크립트는 대소문자를 구별하기 때문에 nullNULL, Null 등과 다르다.

var foo = 'Kim';
foo = null;

프로그래밍 언어에서 null은 변수에 값이 없다는 것을 의도적으로 명시할 때 사용한다.
변수에 null을 할당하는 것은 변수가 이전에 참조했던 값을 더이상 참조하지 않겠다는 의미이다.
(이전에 할당되어 있던 값에 대한 참조를 명시적으로 제거하는 의미)

<!DOCTYPE html>
<html>
  <body>
    <script>
      var element = document.querySelector('.myClass');
      console.log(element);   // null
    </script>
  </body>
</html>

함수가 유효한 값을 반환할 수 없는 경우 명시적으로 null을 반환하기도 한다.
위 코드처럼 HTML 요소를 검색해 반환하는 document.queryuSelector 메서드는 조건에 부합하는 HTML 요소를 검색할 수 없는 경우 에러 대신 null 을 반환한다.


6.7 Symbol 타입

심벌은 ES6에서 추가된 7번째 데이터 타입으로 변경 불가능한 원시 타입의 값이다.
심벌은 다른 값과 중복되지 않는 유일무이한 값이며, 따라서 주로 이름이 충돌할 위험이 없는 객체의 유일한 프로퍼티 키를 만들기 위해 사용한다.

var key = Symbol('key');
console.log(typeof key);   // symbol

var obj = {};

obj[key] = 'value';
console.log(obj[key]);   // value

자바스크립트의 원시 값들은 리터럴을 통해 생성하지만 심벌은 Symbol 함수를 호출해 생성한다.
이 때 생성된 심벌 값은 외부에 노출되지 않으며, 다른 값과 절대 중복되지 않는 유일무이한 값이다.


6.8 객체 타입

자바스크립트의 데이터 타입은 크게 원시형과 참조형(객체형)으로 분류한다.
그 이유는 원시형과 참조형 모두 근본적으로 다르다는 의미일 것이다.

중요한 것은 자바스크립트는 객체 기반의 언어이며, 자바스크립트를 이루고 있는 거의 모든 것이 객체이다.
지금까지 살펴본 6가지 타입 이외의 값들은 모두 객체 타입이다.

객체에 대해서는 이후 11장에서 자세히 살펴볼 예정이다.


6.9 데이터 타입의 필요성

🤔 데이터 타입이 왜 필요한가요?

데이터 타입에 의한 메모리 공간의 확보와 참조

값은 메모리에 저장하고 참조할 수 있어야 한다. 메모리에 값을 저장하기 위해서는 먼저 확보해야 할 메모리 공간의 크기를 결정해야 한다. 즉 몇 바이트의 메모리 공간을 사용해야 낭비 없이 값을 저장할 수 있는지 알아야 한다.

var score = 100;

예를 들어 위 코드가 실행되면 컴퓨터는 숫자 값 100을 저장하기 위해 메모리 공간을 확보한 다음, 확보된 메모리 숫자 값 100을 2진수로 저장한다. 이렇게 처리하려면 숫자 값을 저장할 때 확보할 메모리 공간의 크기를 알아야 한다. 자바스크립트 엔진은 데이터 타입에 따라 정해진 크기의 메모리 공간을 확보한다.

즉, 값의 데이터 타입에 따라 확보해야 할 메모리 공간의 크기가 결정된다.

ECMAScript 사양은 문자열과 숫자 외 데이터 타입의 크기를 명시적으로 규정하고 있지는 않다. 따라서 문자열과 숫자를 제외하고 데이터 타입에 따라 확보되는 메모리의 크기는 자바스크립트 엔진 제조사 구현에 따라 다를 수 있다. 단, ECMAScript 사양에 숫자 타입은 배정밀도 64비트 부동소수점 형식을 사용한다고 명시되어 있고, 이 형식은 8바이트로 숫자를 표현하기 때문에 숫자 값의 크기를 8바이트로 설명한다.

🤓 값을 참조해야 할 경우는요?

식별자 score 를 통해 숫자 값 100 이 저장되어 있는 메모리 공간의 주소를 찾아갈 수 있다.
이 때, 값을 참조하려면 한 번에 읽어들여야 할 메모리 공간의 크기, 즉 메모리 셀의 개수를 알아야 한다.

score 변수의 경우 저장된 값이 숫자 타입이므로 8바이트 단위로 읽어들이지 않으면 값이 훼손된다.

그렇다면 컴퓨터는 한 번에 읽어들여야 할 메모리 셀의 크기를 어떻게 알 수 있을까?

score 변수에는 숫자 값이 할당되어 있으므로 자바스크립트 엔진은 score 변수를 숫자 타입으로 인식한다. 숫자 타입은 8바이트 단위로 저장되므로, score 변수를 참조하면 8바이트 단위로 메모리 공간에 저장된 값을 읽어들인다.

심벌 테이블(symbol table)이란?
컴파일러 또는 인터프리터는 심벌 테이블이라고 부르는 자료 구조를 통해 식별자를 키로 바인딩된 값의 메모리 주소, 데이터 타입, 스코프 등을 관리한다.

데이터 타입에 의한 값의 해석

하나 남은 문제는 메모리에서 읽은 2진수를 어떻게 해석하냐는 것이다.
모든 값은 데이터 타입을 가지며 메모리에 저장되지만, 메모리에 저장된 값은 데이터 타입에 따라 다르게 해석될 수 있다.

앞선 score 변수에 할당된 값은 숫자 타입의 값이다.
따라서 이 변수를 참조하면 메모리 공간의 주소에서 읽어들인 2진수를 숫자로 해석한다.

즉 데이터 타입이 필요한 이유는?

  • 값을 저장할 때 확보해야 하는 메모리 공간의 크기를 결정하기 위해
  • 값을 참조할 때 한 번에 읽어 들여야 할 메모리 공간의 크기를 결정하기 위해
  • 메모리에서 읽어 들인 2진수를 어떻게 해석할지 결정하기 위해

6.10 동적 타이핑

동적 타입 언어와 정적 타입 언어

자바스크립트의 모든 값은 데이터 타입을 가진다. 그렇다면 변수는 데이터 타입을 가질까?

char c;
int num;

C언어나 Java 같이 정적 타입 언어(static type language)는 변수를 선언할 때 변수에 할당할 수 있는 값의 종류(데이터 타입)을 사전에 선언해야 한다. 이를 명시적 타입 선언(explicit type declaration)이라고 한다.

정적 타입 언어는 변수의 타입을 변경할 수 없으며, 변수에 선언한 타입에 맞는 값만 할당할 수 있다.

정적 타입 언어는 컴파일 시점에 타입 체크를 수행하는데, 만약 타입 체크를 통과하지 못했다면 에러를 발생시키고 프로그램 실행 자체를 막는다. 이를 통해 타입의 일관성을 강제함으로써 더 안정적인 코드 구현을 통해 런타임에 발생하는 에러를 줄인다.

대표적인 정적 타입 언어
C, C++, Java, Kotlin, Go, Haskell, Rust, Scala...

var foo;
console.log(typeof foo);   // undefined

foo = 10;
console.log(typeof foo);   // number

foo = 'Hi';
console.log(typeof foo);   // string

foo = true;
console.log(typeof foo);   // boolean
            
foo = null;
console.log(typeof foo);   // object

foo = Symbol();
console.log(typeof foo);   // symbol

foo = {};
console.log(typeof foo);   // object

foo = [];
console.log(typeof foo);   // object

foo = function() {};
console.log(typeof foo);   // function

typeof 연산자로 변수를 연산하면 변수의 데이터 타입을 반환한다.
정확히는 변수에 할당된 값의 데이터 타입을 반환한다.

자바스크립트 변수에는 어떤 데이터 타입이라도 자유롭게 할당할 수 있으므로 정적 타입 언어에서 말하는 데이터 타입과는 개념이 다르다. 정적 타입 언어는 변수 선언 시점에 변수의 타입이 결정되고, 변수의 타입을 변경할 수 없다. 하지만 자바스크립트에서는 값을 할당하는 시점에 변수의 타입이 동적으로 결졍되고, 변수의 타입을 자유롭게 변경할 수 있다.

즉, 자바스크립트의 변수는 선언이 아니라 할당에 의해 타입이 결정된다. (= 타입 추론 type inference)
그리고 재할당에 의해 변수의 타입은 언제든지 동적으로 변할 수 있다.
이러한 특징을 동적 타이핑(dynamic typing)이라고 하며, 자바스크립트를 동적 타입 언어(dynamic type languate)라고 한다.

대표적인 동적 타입 언어
JavaScript, Python, PHP, Ruby, Lisp, Perl...

기본적으로 변수는 타입을 갖지 않는다. 하지만 값은 타입을 가진다.
따라서 현재 변수에 할당되어 있는 값에 의해 변수의 타입이 동적으로 결정된다고 표현하는 것이 더 적절하다.
변수는 값에 대한 별명이기 때문이다.

동적 타입 언어와 변수

동적 타입 언어는 변수에 의해 어떤 데이터 타입의 값이라도 자유롭게 할당할 수 있다.
매우 편리하다는 특징을 가지지만, 편리함의 이면에는 위험함도 함께 있다.

모든 소프트웨어 아키텍처에는 트레이드오프(trade-off)가 존재하며, 모든 애플리케이션에 적합한 은 탄환(silver bullet)은 없듯이 동적 타입 언어 또한 구조적인 단점이 존재한다.

변수의 값은 언제든지 변경될 수 있기 때문에 복잡한 프로그램에서는 변화하는 변수 값을 추적하기 어려울 수 있다. 뿐만 아니라 변수의 타입이 고정되어 있지 않고 값의 변경에 의해 타입도 함께 변하기 때문에 변수 값을 확인하기 전에 타입을 확신할 수 없다.

특히 자바스크립트는 개발자 의도와 상관없이 자바스크립트 엔진에 의해 암묵적으로 타입이 자동 변환되기도 한다. 잘못된 예측에 의해 작성된 프로그램은 당연히 오류를 뿜어낼 것이다. 결국 동적 타입 언어는 유연성(flexibility)은 높지만 신뢰성(reliability)은 떨어진다.

이러한 이유로 안정적인 프로그램을 만들기 위해 변수를 사용하기 전 데이터 타입을 체크해야 하는 경우가 있는데 이는 매우 번거롭고 코드 양도 증가한다. 따라서 변수를 사용할 때 다음과 같은 주의사항이 있다.

  • 변수는 꼭 필요한 경우에만 제한적으로 사용한다.
  • 변수의 유효 범위는 최대한 좁게 만들어 변수의 부작용을 억제해야 한다.
  • 전역 변수는 최대한 사용하지 않도록 한다.
  • 변수보다 상수를 사용해 값의 변경을 억제한다.
  • 변수 이름은 변수의 목적이나 의미를 파악할 수 있도록 네이밍한다.

코드는 오해하지 않도록 작성해야 한다. 오해는 커뮤니케이션을 어렵게하는 대표적 원인으로 생산성을 떨어뜨리며 팀의 사기를 저하시킨다. 코드는 동작하는 것만이 존재 목적은 아니다. 개발자를 위한 문서이기도 하다.

즉, 사람이 이해할 수 있도록 가독성이 좋은 코드가 좋은 코드이다.

profile
기록 중독 개발자의 기록하는 습관

0개의 댓글