7. 텍스트의 다양한 변신_LMS Node 브레이커

허남철·2021년 12월 31일
0

LMS Node 브레이커

목록 보기
2/4

인코딩(encoding) : 문자열을 바이트로

디코딩(decoding) : 바이트를 문자열로

유니코드(Unicode) : ISO에서 제정한 국제표준문자표

utf-8 : 하나의 인코딩 방식

파이썬 내장함수 ord(), chr()

  • ord(문자) : 문자에 대응하는 유니코드 숫자 반환
  • chr(유니코드숫자) : 유니코드 숫자에 대응하는 문자를 반환
#- 파이썬 2 -#
#- string, unicode string으로 구분됩니다.

>>> str1 = b'hello'
>>> str2 = 'hello'
>>> str3 = u'hello'
>>> print(type(str1), type(str2), type(str3))
<type 'str'>, <type 'str'>, <type 'unicode'>

파이썬 2 : str, unicode str로 구분, 인코딩후 아스키>유니코드 변환 작업 필요

#- 파이썬 3-#
#- bytes와 string으로 구분됩니다.

str1 = b'hello'
str2 = 'hello'
str3 = u'hello'
print(type(str1), type(str2), type(str3))
# 결과 : <class 'bytes'>,  <class 'str'>,  <class 'str'>

파이썬 3 : bytes, str로 구분(인코딩여부), 문자열이 무조건 유니코드로 인코딩되므로, 텍스트가 인코딩되어있는지 디코딩되어있는지만 고려

원시문자열(raw string) : 이스케이프문자를 무시하고자 할때 문자열따옴표 앞에 r을 붙여 사용

여러 가지 공백 문자

  • 스페이스(space) : 한 칸 띄어쓰기
  • 탭(tab) \t: : 네 칸 띄어쓰기
  • 줄 바꿈(new line) | 라인 피드(line feed, 개행) : 줄 바꿈을 엄밀히 말하면 라인피드
  • 캐리지 리턴 (carriage return, 복귀) \r : 커서를 맨앞으로 이동시키는 것, 즉 커서를 원위치로 복귀(return) 한다. 커서를 맨 앞으로 보내고, \r 뒤에 문자가 있으면 그 문자를 출력

공백 문자 제거하기(trimming) : strip(), lstrip(), rstrip()

예 : 문자열.strip(’제거할 문자 집합, default 공백’)

'www.example.com'.strip('cmowz.')
>>> example

대소문자 관련 : ‘txt’.method()

.upper() , .lower() , .capitalize() , .title()

isX : ‘txt’.method() > 불린 반환.

.isupper() , .islower() , .istitle() , .issalpha() , .isalnum() , .isdecimal()

‘구분자’.join(iterable) : iterable의 요소 사이에 구분자를 넣어서 하나문자열로 반환

‘문자열’.split(’구분자’) : 문자열을 구분자 기준으로 나누어 리스트로 반환 ( 구분자 default는 쉼표 “,”)

‘문자열’.replace(s1, s2) : 문자열 내 문자열 s1을 s2로 변환

Python 개념 정리 - 객체란 ( mutable vs immutable )

7-4. 정규표현식

  • import re 로 패턴 컴파일
  • re. complire() 로 regex 객체생성
  • 검색할 문자열을 regex 객체의 메소드로 전달.
  • 정규표현식 종류 정리 ~~~

7-5 파일과 디렉토리

with를 통해 open된 객체는 with 문이 종료될 때 자동으로 close 되는 것이 보장되기 때문입니다. 시스템 리소스의 안정적 사용을 위해 with 문 활용을 권장합니다.’

  • f.read() : 파일을 읽는다.
  • f.readline() : 파일을 한 줄씩 읽는다.
  • f.readlines() : 파일 안의 모든 줄을 읽어 그 값을 리스트로 반환한다.
  • f.write(str) : 파일에 쓴다. 문자열 타입을 인자로 받는다.
  • f.writelines(str) : 파일에 인자를 한 줄씩 쓴다.
  • f.close() : 파일을 닫는다.
  • f.seek(offset) : 해당 파일의 위치(offset)를 찾아 파일의 커서를 옮긴다. 파일의 처음 위치는 0이다.
  • f.tell(): 현재 커서의 위치를 반환한다.

리눅수 기본 명령어

파이썬 모듈 및 패키지 개념 정리

  • 개념
  • 함수

csv, xml, json

파싱(parsing, 구문분석) : 파싱후 특정 태그명, 속성값들을 불러올수 있다.

뷰티풀숩

profile
AI꿈나무

0개의 댓글