기금넷 공식사이트 - 금 선물 - 중앙 데이터베이스 설계

중앙 데이터베이스 설계

6.5438+0 데이터베이스

시스템 개발 요구 사항에 따라 데이터베이스의 기능과 기능에 따라 위험 쿼리, 위험 평가 및 시스템 관리 (Sashixuan et al, 2000) 의 세 가지 범주로 나눌 수 있습니다. 주요 데이터는 표 5.5 에 나와 있습니다.

표 5.5 해외 석유 및 가스 및 금속 광물 자원 개발 위험 관리 시스템 주요 데이터 시트

계속됨

5.2.2.2 데이터 웨어하우스

유가 데이터는 미국 에너지부 산하의 에너지 정보국 (EIA), 중국 석유가스그룹 (CNPC) 및 월스트리트저널 (WSJ) 웹 사이트에서 나온 것이다. 유가 시퀀스 자체는 불규칙한 시계열이며 유가 데이터는 다음과 같은 특징을 가지고 있다.

(1) 데이터 일관성이 떨어집니다.

유가 데이터 형식은 다양하고, 데이터 중복은 주로 사용되는 데이터 형식이 다르고, 각 하위 시스템은 상대적으로 독립적이라는 측면에서 나타난다. 웹사이트가 단독으로 행동하는 경우에는 일반적으로 문제가 없지만, 이러한 서로 다른 시스템이나 시기의 데이터를 모아 종합적으로 활용하면 데이터 불완전, 불일치 또는 중복이 발생할 수 있습니다.

(2) 데이터 저장소의 분산

유가 데이터 출처가 많고 통합 관리가 부족하며, 데이터 현지화를 위한 해당 웹 데이터 자동 수집 작업도 없습니다.

(3) 불충분 한 데이터 자원 개발

대용량 데이터로 인해 데이터 자원 개발 및 활용이 부족하고, 획득한 데이터에 대한 심도 분석, 종합, 정제, 발굴 및 전시가 부족합니다. 예를 들어, 각 분석 기관이 제정한 선물 계약 메타데이터와 같이 풍부한 통계 자원을 2 차 개발하기가 어렵습니다.

석유와 가스 제품의 종류, 석유와 가스 제품의 계약 날짜, 석유와 가스 제품의 가격 유형 및 시장에 따라 석유와 가스 제품의 가격 차이에 따라 유가 동향에 대한 인식이 깊어질 수 있다. 유가의 이러한 시변, 수정 불가능, 통합성으로 인해 우리는 여러 각도에서 원시 데이터를 이해하고 그 특징을 실감할 수 있게 되었으며, 통합 기술을 사용하여 유가를 정확하게 예측할 필요가 있음을 깨닫게 되었습니다.

데이터 웨어하우스 구축 프로세스는 그림 5. 13 과 같이 상향식으로 진행됩니다.

그림 5. 13 데이터 웨어하우스 구축 프로세스

1) 데이터 소스.

A. 데이터 소스의 복잡성 데이터는 데이터베이스 관리 시스템, 스프레드시트, e-메일 시스템, 전자 문서, 심지어 종이에 분산되어 있습니다. 시스템이 수집해야 하는 세 가지 데이터 소스 중 EIA 웹 사이트 웹 페이지에 저장된 유가 관련 이벤트 업데이트가 느립니다. 매일, 매주, 매월, 매년 각 시장의 유가 데이터를 다운로드하지만, 다운로드 후 양식 필드의 형식이 변하는 경우가 많기 때문에 자동으로 데이터를 가져와 로컬 자동 스토리지로 다운로드하는 것이 더 어렵습니다. 위의 세 가지 데이터 외에도 트래픽이 너무 많은 IP 주소가 사이트 블랙리스트에 올라 로컬로 저장할 수 없게 됩니다. 이러한 데이터에 대한 통합 모델을 구축하려면 많은 노력이 필요합니다.

B. 데이터의 유효성 경험의 제한, 데이터의 빈 값 처리 방법, 시간 간격에 따른 시간 필드의 형식, 데이터 저장 시 주의해야 할 문제 등이 있습니다. , 응용 프로그램이 데이터의 유효성을 확인하지 못하면 데이터의 다차원 표시에 큰 영향을 미치므로 데이터 소스의 데이터 품질로 귀결됩니다.

C. 데이터 무결성. 데이터 소스의 데이터는 그렇게 명백하거나 쉽게 구할 수 없습니다. 유가는 매우 민감한 데이터이므로 다양한 사이트에서 다양한 석유 거래 시장에 대한 일일, 월별 또는 연간 데이터를 제공하지만 무결성을 완전히 보장할 수는 없습니다. 기업 정책에 따라 데이터를 얻기 위해 많은 노력이 필요한 경우도 있습니다. 따라서 얻은 데이터의 무결성을 보장하기 위해 서로 다른 데이터 소스를 구축해야 합니다.

2) 데이터 처리.

효율적인 큐브 데모는 기본 데이터 소스 데이터의 정확한 획득이나 데이터 이해 및 데이터 클리닝과 분리 할 수 ​​없습니다. 따라서 시스템은 메타데이터 수집, 처리, 저장, 큐브 표시 등에 대한 요구 사항을 충족합니다.

A.ETL 이 기능은 전체 유가 데이터 웨어하우스의 핵심 중 하나입니다. 주요 기능은 미리 정의된 데이터 테이블 대응 관계를 기반으로 관련 시스템 테이블에서 데이터를 추출하고, 데이터 정리 및 변환을 거쳐, 최종적으로 올바른 데이터를 데이터 웨어하우스의 소스 데이터로 로드하여 향후 적용의 기초로 사용하는 것입니다.

B. 데이터 변환 이 기능은 데이터 추출 중 정의된 규칙에 따라 데이터를 변환하여 분석에서 데이터의 다양성을 방지하고 데이터 일관성을 보장합니다.

C. 데이터 통합. 이 기능은 주로 유가 정보 데이터웨어 하우스 시스템의 소스 데이터를 사전 정의된 계산 논리에 따라 주제별로 통합하고 새로운 데이터 구조에 저장하는 것입니다.

3) 데이터 저장소.

스타 스키마 (star schema) 는 데이터 웨어하우스 개발에서 다차원 디스플레이의 중요한 논리 구조입니다. 스타 모델의 몇 가지 중요한 특징은 실제 응용 프로그램에서 사실 테이블과 차원 테이블로 나타나는 차원, 도 및 속성입니다. 유가 데이터에서 각 시장의 현물 가격표는 데이터 창고의 사실 표이고, 유종과 계약일은 차원표이다.

유가 데이터웨어 하우스의 스타 모델 설계는 다음과 같습니다.

A. 개요 소개. 데이터베이스 테이블 (일, 주, 월, 연표 포함) 의 EIA 현물 가격표를 데이터 웨어하우스의 사실 테이블로 사용하여 여러 시간 차원에 따라 여러 별 모델, 즉 별자리 모델을 형성합니다. 이들 가격표에서 시장번호, 유가제품 유형, 선물계약날짜, 가격단위측정번호는 기본 키 및 외래 키로 다른 차원표를 연결해 다차원 표시 연계의 기초를 형성하고, 유가데이터 및 기타 사실 데이터를 기록 데이터와 주요 출력으로 삼는다.

B. 차원 테이블. 시장, 석유, 가격 데이터, 도량형 및 이벤트 유형에 따라 석유 및 가스 데이터 웨어하우스의 다차원 분석의 각도와 목표입니다.

그림 5. 14 EIA 일일 선물 데이터 테이블을 예로 들어 스타 모델을 구축합니다. 다른 시간 차원의 모델 맵은 이 그림과 거의 같습니다.

그림 5. 14 일 선물 가격 별 모델 EIA 데이터 예

스타 모델 설계를 기반으로 데이터 저장소에서 비즈니스 데이터 저장소 (ODS) 의 프로토타입 설계가 개선되어 DB 와 DW 사이의 중간 계층에 대한 데이터 환경을 제공하여 비즈니스 데이터 통합과 시스템 간의 데이터 교환을 가능하게 합니다.