기금넷 공식사이트 - 주식 지식 - 데이터 압축

데이터 압축

데이터 압축 기술은 주로 데이터가 차지하는 저장 공간을 줄이고 데이터 전송에 소요되는 시간을 단축하는 것을 목적으로 데이터의 표현, 전송 및 변환 방법을 연구합니다.

데이터 압축을 측정하는 세 가지 주요 지표가 있습니다. 첫째, 압축 전후에 필요한 정보 저장량의 비율이 더 커야 하며, 둘째, 압축을 달성하는 알고리즘이 단순해야 하며, 압축이 간단해야 합니다. 압축 해제 속도는 최대한 빨라야 합니다. 셋째, 복구 효과가 좋아야 하며 원본 데이터를 최대한 완벽하게 복원해야 합니다.

데이터 압축은 주로 두 가지 측면에서 사용됩니다. 첫 번째는 전송입니다. 송신단에서 원본 데이터를 압축하고 수신단에서 압축을 풀고 복원함으로써 전송 시간을 효과적으로 줄이고 채널 대역폭을 늘릴 수 있습니다. 두 번째는 저장입니다. 원본 데이터를 저장할 때 압축하고 사용할 때 압축을 풀면 저장 매체의 저장 용량을 크게 늘릴 수 있습니다.

데이터 압축은 압축 왜곡 정도에 따라 두 가지 유형으로 나뉘는데, 하나는 무손실 압축, 다른 하나는 손실 압축이라고 합니다.

무손실 압축은 재구성(또는 복원, 압축 해제)을 위해 압축된 데이터를 사용하는 것을 의미하며, 재구성된 데이터는 원본 데이터와 완전히 동일하며, 원본 신호와 완전히 일치하도록 재구성해야 하는 신호에 사용됩니다. . 가장 일반적인 예는 디스크 파일 압축입니다. 현재 기술 수준에 따르면 무손실 압축 알고리즘은 일반적으로 일반 파일의 데이터를 원본 크기의 1/4~1/2로 압축할 수 있습니다. 일반적으로 사용되는 무손실 압축 알고리즘으로는 허프만 알고리즘, 산술 알고리즘, 실행 길이 알고리즘 및 LZW(Lenpel-Ziv & Welch) 압축 알고리즘이 있습니다.

1) 허프만 알고리즘은 통계적 압축 방식으로 원본 데이터 기호의 출현 확률에 따라 인코딩하는 것을 원칙으로 합니다. 원본 데이터의 일치 발생 확률이 높을수록 해당 코드 길이는 짧아집니다. 일치 발생 확률이 낮을수록 코드 길이는 길어집니다. 이런 방식으로 원본 데이터를 가능한 한 적은 수의 기호로 표현할 수 있으며 데이터를 압축할 수 있습니다.

2) 산술 알고리즘은 통계 원리를 기반으로 하며 무손실 압축 효율성이 가장 높습니다. 즉, 압축할 데이터의 전체 세그먼트는 반폐쇄된 실수 범위 [0, 1) 내의 세그먼트에 매핑된다. 세그먼트의 범위 또는 너비는 세그먼트의 정보 확률과 같습니다. 즉, 정보에 사용된 모든 기호의 발생 확률을 곱한 확률값이다. 인코딩할 정보가 길어질수록 정보를 표현하는 데 사용되는 세그먼트는 더 좁아지고 세그먼트를 표현하는 데 사용되는 비트 수는 늘어납니다.

3) 런렝스 알고리즘은 일부 텍스트 데이터의 특성에 맞게 설계된 압축 방식입니다. 주요 목적은 텍스트의 중복 문자나 바이트의 중복 비트를 제거하여 데이터 파일이 차지하는 저장 공간을 줄이는 것입니다. 압축 처리 흐름은 압축 표시 문자 뒤에 문자를 추가하여 압축 대상을 표시하고 문자의 반복 횟수를 추가한다는 점을 제외하면 공백 압축과 유사합니다. 이 알고리즘은 한계가 있어 단독으로 사용되는 경우가 거의 없으며 다른 알고리즘과 함께 사용되는 경우가 많습니다.

4) LZW 알고리즘의 원리는 압축된 데이터의 문자열을 사전 항목의 인코딩으로 바꾸는 것입니다. 따라서 사전에 항목이 많을수록 압축률이 높아집니다. 사전 용량을 늘리면 압축률이 향상됩니다. 사전의 크기는 컴퓨터 메모리에 의해 제한됩니다.

손실 압축이란 압축된 데이터를 재구성에 사용하는 것을 말합니다. 재구성된 데이터는 원본 데이터와 다르지만 원본 데이터에 표현된 정보에 대한 사람들의 오해에는 영향을 미치지 않습니다. 손실 압축은 재구성된 신호가 반드시 원래 신호와 정확히 동일할 필요는 없는 상황에 적합합니다. 예를 들어, 손실 압축은 시각 및 청각 시스템이 수신할 수 있는 것보다 더 많은 데이터를 포함하는 경우가 많기 때문에 이미지와 사운드를 압축하는 데 사용할 수 있습니다. 일부 데이터는 사운드나 이미지의 의미에 영향을 주지 않고 손실될 수 있지만 크게 개선될 수 있습니다. 압축 비율.