Language/Algorithm
[알고리즘 기초] 03_문자열(string) / Python
migrationArc
2021. 6. 9. 18:30
[알고리즘 기초] 03_문자열(string) / Python
1. 문자의 표현 - 컴퓨터에서의 문자의 표현
1) 코드체계
- 각 문자에 대해서 대응되는 숫자를 정해 놓고 이것을 메모리에 저장하는 방법을 사용
- 영어의 경우 대소문자 합쳐서 52자 이므로 6비트(64 가지)면 모두 표현 할 수 있다. 이를 코드체계라고 한다.
000000 -> 'a'
000001 -> 'b'
- 네트워크가 발전하면서 서로간의 정보를 주고 받을 때 정보를 다르게 해석한다는 문제가 발생
- 지역별 코드 체계가 다르기 때문
2) ASCII Code
- 표준안을 목적으로 1967년, 미국에서 ASCII(American Standard Code for Information Interchange)라는 문자 인코딩 표준이 제정됨.
- ASCII는 7bit 인코딩으로 128문자를 표현하며 33개의 출력 불가능한 제어 문자들과 공백을 비롯한 95개의 출력 가능한 문자들로 이루어져 있다.
bit : 0 또는 1 나타내는 단위
byte : 영문자 1개를 나타내는 단위 (8bit - ASCII + Parity)
3) 확장아스키
표준문자 이외의 악센트 문자, 특수 문자, 특수 기호 등 부가적인 문자를 128개 추가할 수 있게 하는 부호
- 확장 아스키는 Byte내의 8bit를 모두 사용하믕로써 추가적인 문자를 표현할 수 있다.
- 확장 아스키는 여러가지 다양한 문장 할당할 수 있도록 하기 때문에 서로 다른 프로그램이나 컴퓨터사이에 교환되지 못한다.
- 확장 아스키는 프로그램이나 컴퓨터 또는 프린터가 그것을 해독할 수 있도록 설계되어 있어야만 올바른 해독이 가능하다.
4) 유니코드
국가간 정보를 주고 받게 되면서 자국의 코드체계를 타국가가 가지고 있지 않으면 정보를 잘못 해석 할 수 밖에 없는 문제를 해결하기 위해 다국어 처리를 위해 마련한 표준
- 유니코드는 Character Set으로 분류된다.
- USC-2 (Universal Character Set 2)
- USC-4 (Universal Character Set 4)
- 유니코드를 저장하는 변수의 크기를 정의, 바이트 순서에 대해 표준화 하지 못함
- 파일 인식 시, USC-2와 USC-4를 구분해서 다르게 구현해야 하는 문제가 발생하여 외부 인코딩이 필요하게 됨
- big-endian
0001 0010 / 0011 0100 -> ox12 ox34
- little-endian
0001 0010 / 0011 0100 -> ox34 ox12 (큰수 먼저 표기)
5) 유니코드 인코딩 (UTF : Unicode Transformation Format)
- UTF-8 (in web)
- MIN : 8bit
- MAX : 32bit(1byte *4)
- UTF-16 (in windows, java)
- MIN : 16bit
- MAX : 32bit(2 byte *2)
- UTF-32 (in unix)
- MIN : 32bit
- MAX : 32bit(4 byte *1)
6) Python 인코딩
- 2.X 버전 - ASCII - #--coidng: utf-8 -- (첫 줄에 명시)
- 3.X 버전 - 유니코드 UTF-8 (생략가능)
- 다른 인코딩 방식으로 처리 시 첫 줄에 작성하는 위 항목에 원하는 인코딩 방식을 지정해주면 됨
2. 문자열
1) Python에서의 문자열 처리
- char 타입 없음
- 텍스트 데이터의 취급방법이 통일되어 있음
- 문자열 기호
- ' ', " ", ''' ''', """ """
- +:연결
- *:반복
- 문자열은 시퀀스 자료형으로 분류되고, 시퀀스 자료형에서 사용할 수 있는 인덱싱, 슬라이싱 연산들을 사용할 수 있음
- 문자열은 튜플과 같이 요소값을 변경 할 수 없음(immutable)
- 문자열을 인덱스로 접근하여 변경이 불가능하다
2) 문자열 뒤집기
- 자기 문자열에서 뒤집는 방법, 새로운 빈 문자열을 만들어서 소스의 뒤에서부터 읽어서 쓰는 방법이 있다.
- Python은 Reverse 함수 혹은 slice notation을 이용하여 구하면 된다.
3) 문자열 비교
- 파이썬에서는 == 연산자와 is 연산자를 제공한다.
- == 연산자는 내부적으로 특수 메서드 __eq__()를 호출
4) 문자열 숫자를 정수로 변환하기
- 파이썬에서는 숫자와 문자변환 함수를 제공한다.
ex) int("123"), float("3.14"), str(123,) repr(123)
5) 문자열 교체하기
- chr(--int--) => int 에 해당하는 ASCII Code 문자를 출력
- ord(--str--) => str 에 해당하는 ASCII Code Number를 출력
3. 패턴 매칭
1) 고지식한 알고리즘(Brute Force)
- 본문 문자열을 처음부터 끝까지 차례대로 순회하면서 패턴 내의 문자들을 일일히 비교하는 방식으로 동작
- 최악의 경우 시간 복잡도는 텍스트의 모든 위치에서 패턴을 비교해야 하므로 O(MN)이 됨
2) KMP 알고리즘
- 불일치가 발생한 텍스트 스트링의 앞 부분에 어떤 문자가 있는지를 미리 알고 있으므로, 불일치가 발생한 앞 부분에 대하여 다시 비교하지 않고 매칭을 수행
- 패턴을 전처리하여 배열 next[M]을 구해서 잘못된 시작을 최소화 함
- next[m] : 불일치가 발생했을 경우 이동할 다음 위치
- 시간 복잡도 : O(M+N)
3) 보이어-무어 알고리즘
- 오른쪽에서 왼쪽으로 비교 ( 문자열의 뒤에서 앞으로 비교 )
- 대부분의 상용 소프트웨어에서 채택하고 있는 알고리즘
- 패턴 오른쪽 끝에 있는 문자가 불일치 하고 이 문자가 패턴 내에 존재하지 않는 경우, 패턴의 길이 만큼 이동하여 시행한다.
- 오른쪽 끝에 있는 문자가 불일치 하고 이 문자가 패턴 내에 존재할 경우, 패턴에 일치하는 문자로 이동하여 시행한다.
4) 문자열 매칭 알고리즘 비교
- 찾고자 하는 문자열 패턴의 길이 m, 총 문자열 길이 n
- 고지식한 패턴 검색 알고리즘: 수해이간 O(mc)
- 카프-라빈 알고리즘: 수행시간 O(n)
- KMP 알고리즘: 수행시간 O(n)
- 보이어-무어 알고리즘: 일반적으로 O(n)보다 시간이 덜 든다.
5) 문자열 압축
- Run-length encoding 알고리즘
- 같은 값이 몇번 반복되는가를 나타냄으로써 압축
- 이미지 파일 포멧 중 BMP 파일포맷의 압축 방법