기금넷 공식사이트 - 복권 조회 - 지식 발견에 대한 자세한 정보 모음

지식 발견에 대한 자세한 정보 모음

지식 발견은 다양한 요구에 따라 다양한 정보로부터 지식을 얻는 과정이다. 지식 발견의 목적은 사용자가 원본 데이터의 번거로운 세부 사항을 접할 수 없도록 하고, 원본 데이터에서 효과적이고 새롭고 잠재적으로 유용한 지식을 추출하여 사용자에게 직접 보고하는 것입니다.

중국어 이름: 지식 발견 mbth: 데이터베이스의 지식 발견, KDD 지식 발견: 데이터 마이닝은 더 넓은 표현입니다. 데이터 분류: 개념 분석, 기본 작업, 데이터 분류, 데이터 클러스터, 쇠퇴 및 예측, 상관 관계 및 상관 관계, 시퀀스 검색, 설명 및 식별, 시계열 분석, 지식 유형, 기술 적용, 개요, 일반 기술, 혁신 기술, 운영 절차 지식 발견의 목적은 사용자가 원본 데이터의 번거로운 세부 사항에서 원본 데이터에서 의미 있고 간결한 지식을 추출하여 사용자에게 직접 보고하는 것을 금지하는 것입니다. 데이터베이스 기반 지식 발견 (KDD) 과 데이터 마이닝 사이에는 여전히 혼동이 있습니다. 일반적으로 이 두 용어는 서로 바꿔서 사용할 수 있다. KDD 는 저급 데이터를 고급 지식으로 변환하는 전 과정을 나타냅니다. KDD 는 간단히 정의할 수 있습니다. KDD 는 데이터에서 효과적이고, 새롭고, 잠재적으로 유용하며, 기본적으로 이해할 수 있는 패턴을 결정하는 특정 프로세스입니다. 데이터 마이닝은 관찰 데이터에서 패턴이나 모델을 추출하는 것으로 볼 수 있으며 데이터 마이닝의 일반적인 해석입니다. 데이터 마이닝은 지식 발견 프로세스의 핵심이지만 일반적으로 KDD 의 일부 (약15 ~ 25%) 만 차지합니다. 따라서 데이터 마이닝은 전체 KDD 프로세스의 한 단계일 뿐이며, KDD 프로세스에 포함되어야 할 단계 수와 단계는 정확하게 정의되지 않았습니다. 그러나 일반적인 프로세스는 원시 데이터 입력을 받고, 중요한 데이터 항목을 선택하고, 데이터 그룹을 감소, 사전 처리 및 압축하고, 데이터를 적절한 형식으로 변환하고, 데이터에서 패턴을 검색하고, 검색 결과를 평가하고 설명해야 합니다. 관련 서적의 기본 임무 데이터 분류는 데이터 마이닝 연구의 중요한 분기 중 하나이며 효과적인 데이터 분석 방법입니다. 분류의 목표는 교육 데이터 세트에 대한 분석을 통해 분류 모델 (분류자) 을 구축하고 데이터베이스의 데이터 레코드를 지정된 범주에 매핑하여 데이터 예측에 사용할 수 있도록 하는 것입니다. 데이터 클러스터 분석할 데이터에 필요한 설명 정보가 부족하거나 분류 패턴으로 구성할 수 없는 경우 클러스터 함수를 사용하여 개인 그룹을 유사성에 따라 여러 범주로 나누어 범주를 자동으로 찾을 수 있습니다. 클러스터링은 분류와 유사하며 데이터를 그룹화합니다. 그러나 분류와 달리 클러스터의 그룹은 미리 정의되지 않고 실제 데이터의 특성과 데이터 간의 유사성에 따라 정의됩니다. 하강과 예측 이것은 특수한 유형의 분류로, 과거와 현재의 데이터를 근거로 미래의 데이터 상태를 예측하는 것으로 볼 수 있다. 감쇠 통계 기술로 모델링된 숫자 값의 예측을 통해 (선형 또는 비선형) 함수를 학습하여 데이터 항목을 숫자 예측 변수에 매핑합니다. 연결 및 관련은 대규모 데이터 세트에서 프로젝트 세트 간의 흥미로운 연결 또는 상관 관계를 찾는 것을 의미합니다. 상호 관계 규칙은 데이터베이스의 데이터를 분석하여 한 데이터 객체의 정보에서 다른 데이터 객체의 정보를 추론하여 반복 가능성이 높은 지식 패턴을 찾는 것을 말합니다. 신뢰 요소가 있는 매개변수는 종종 이러한 불확실한 관계를 설명하는 데 사용됩니다. 시퀀스 검색은 일반적으로 데이터 세트에서 시퀀스 패턴을 결정하는 것을 의미합니다. 특정 유형의 데이터 관계가 발견되면 이러한 패턴은 연관 및 상관 관계와 유사합니다. 그러나 관계가 시계열 기반 데이터 세트의 경우 순차 검색과 연관은 다릅니다. 요약: 순서 검색은 데이터를 데이터 세트에 대한 간단한 설명의 하위 집합 또는 데이터베이스의 특정 사용자 데이터 집합에 매핑하는 매우 일반적인 데이터입니다. 설명과 판별은 각 피쳐 규칙이 명제이거나 데이터 세트의 특징을 표시하거나 실험 클래스와 비교 클래스의 개념을 구분하는 피쳐 규칙 세트를 찾는 것을 말합니다. 시계열 분석의 임무는 주가 지수에서 재무 데이터, 고객 데이터, 의료 데이터 등과 같은 속성 값의 추세를 발견하는 것입니다. 유사 패턴을 검색하여 특정 패턴의 위험, 인과 관계 및 추세를 발견하고 예측하는 데 사용됩니다. 지식 유형 1) 일반화. 데이터의 미시적 특징에 근거하여 발견된 보편성, 높은 수준의 개념, 중간 또는 거시적인 지식입니다. 2) 분류&; 클러스터). 특징 지식은 비슷한 사물의 공통된 성질과 사물 사이의 서로 다른 특징 지식을 반영한다. 데이터가 합산되는 방식을 반영하거나 객체의 속성에 따라 객체를 구분하는 데 사용되는 범주입니다. 3) 레노버. 한 이벤트와 다른 이벤트 간의 종속성 또는 상관 관계를 반영하는 지식이며 종속성이라고도 합니다. 이러한 지식은 데이터베이스 표준화, 쿼리 최적화 등에 사용할 수 있습니다. 4) 예측 지식. 시계열 데이터를 통해 과거 및 현재 데이터에서 미래 상황을 예측합니다. 그것은 실제로 시간을 중요한 속성으로 하는 관련 지식이다. 5) 편차 지식. 이러한 차이와 극단적인 예외는 표준 클래스 외부의 특수한 경우, 데이터 클러스터 외부의 비정상적인 값, 실제 관찰 및 시스템 예측 값의 현저한 차이를 분석하여 설명합니다. 기술 응용 개요 지식 발견에 많은 지식 발견 기술이 등장했고, 많은 분류 방법도 있었다. 발굴된 객체에 따라 관계형 데이터베이스와 멀티미디어 데이터베이스가 있습니다. 마이닝 방법에 따라 데이터 중심, 쿼리 중심 및 상호 작용이 있습니다. 지식 유형에 따라 연관 규칙, 피쳐 마이닝, 분류, 클러스터링, 요약 지식, 추세 분석, 편차 분석 및 텍스트 마이닝이 있습니다. 지식 발견 기술은 알고리즘 기반 방법과 시각화 기반 방법의 두 가지 범주로 나눌 수 있습니다. 대부분의 알고리즘은 인공지능, 정보 검색, 데이터베이스, 통계, 모호세트, 거친 집합 이론 등에서 발전했다. 일반적인 지식 발견 기술전형적인 알고리즘 기반 지식 발견 기술로는 베이지안 확률 이론과 최대 우도 추정, 회귀 분석, 가장 가까운 이웃 방법, 의사 결정 트리, k 방법 클러스터, 연관 규칙 마이닝, 웹 및 검색 엔진, 데이터 웨어하우징 및 온라인 분석 처리 (OLAP), 신경망, 유전 알고리즘, 퍼지 분류 및 클러스터링, 거친 분류 및 규칙이 있습니다 이 기술들은 이미 매우 성숙되어 관련 서적과 문장 모두 상세하게 묘사되어 있다. 시각화에 기반한 방법이 도입되었습니다. 그래픽, 과학 시각화 및 정보 시각화 분야에서 1 기하학적 투영 기술을 포함한 시각화 방법을 기반으로 한 혁신적인 기술이 개발되었습니다. 기본 구성 요소 분석, 요소 분석 및 다차원 스케일을 사용하여 입방체를 발견하는 흥미로운 투영을 말합니다. ② 그래픽 기술을 기반으로. 각 다차원 데이터 항목을 그래픽, 색상 또는 기타 차트에 매핑하여 데이터 및 패턴의 표현 능력을 향상시키는 것을 의미합니다. ③ 픽셀 지향 기술. 각 속성은 하나의 컬러 픽셀으로만 표현되거나 속성 값의 범위가 고정된 색상 맵에 매핑됩니다. ④ 계층화 기술. 다차원 공간을 세분화하여 계층적 방식으로 하위 공간을 제공하는 것을 말합니다. ⑤ 차트 기술에 기초. 쿼리 언어와 추출 기술을 이용하여 데이터 세트를 차트로 효과적으로 표현한 것이다. ⑥ 하이브리드 기술. 위의 두 가지 이상의 기술을 결합한 기술을 나타냅니다. 운영 단계에 대한 지식 발견 프로세스에 대한 많은 설명이 있습니다. 그것들은 단지 조직과 표현면에서 다를 뿐, 내용에는 본질적인 차이가 없다. 지식 발견 프로세스에는 1 단계가 포함됩니다. 문제에 대한 이해 및 정의: 데이터 마이닝자는 도메인 전문가와 협력하여 문제를 심층적으로 분석하여 가능한 솔루션 및 학습 결과를 평가하는 방법을 결정합니다. 2. 관련 데이터 수집 및 추출: 문제의 정의에 따라 관련 데이터를 수집합니다. 데이터 추출 중 데이터베이스의 쿼리 기능을 활용하여 데이터 추출 속도를 높일 수 있습니다. 3. 데이터 탐색 및 정리: 데이터베이스에 있는 필드의 의미와 다른 필드와의 관계를 이해합니다. 추출된 데이터의 유효성을 검사하고 오류가 포함된 데이터를 정리합니다. 4. 데이터 엔지니어링: 데이터 재처리, 주로 관련 속성의 하위 집합 선택 및 중복 속성 제거, 지식 발견 작업에 따라 데이터 샘플링을 통해 학습량을 줄이고 학습 알고리즘에 맞게 데이터 표현 방식을 변환합니다. 이 단계를 여러 번 반복하여 데이터를 작업에 가장 잘 맞출 수 있습니다. 5. 알고리즘 선택: 데이터 및 해결해야 할 문제에 따라 적절한 데이터 마이닝 알고리즘을 선택하여 해당 데이터에 이 알고리즘을 사용하는 방법을 결정합니다. 6. 데이터 마이닝 알고리즘 실행: 선택한 데이터 마이닝 알고리즘을 기반으로 처리된 데이터의 패턴을 추출합니다. 7. 결과 평가: 학습 결과 평가는 해결해야 할 문제에 따라 달라집니다. 분야 전문가들은 발견된 모델의 참신함과 유효성을 평가한다. 데이터 마이닝은 데이터베이스에서 패턴을 찾는 특정 마이닝 알고리즘을 포함하는 KDD 프로세스의 기본 단계입니다. KDD 프로세스는 데이터 마이닝 알고리즘을 사용하여 특정 측정 방법 및 임계값에 따라 데이터베이스에서 지식을 추출하거나 인식합니다. 이 프로세스에는 데이터베이스 사전 처리, 샘플 분할 및 데이터 변환이 포함됩니다. 사실, 지식 발견의 잠재적 응용은 매우 광범위하여, 이미 원래의' 선반 서브 프로젝트' 를 훨씬 뛰어넘었다. 공업에서 농업, 천문학에서 지리학, 예측에서 의사 결정 지원에 이르기까지 KDD 가 점점 더 중요한 역할을 하고 있다. 많은 컴퓨터 소프트웨어 개발자들이 IBM 과 같은 데이터 마이닝 제품을 출시했습니다. 마이크로소프트, SPSS 입니다. SGI, SLPInfoware, SAS (개체 비즈니스) 등. 데이터 마이닝은 정보 처리의 첨단 기술로 이미 실제 응용에서 두각을 나타내고 있다. 1, 비즈니스. "선반 프로젝트" 는 KDD 의 초기 성공적인 응용의 전범이다. 상업적으로 성공적인 응용이 KDD 의 발전에 끊임없이 영향을 미치고 있어 점점 더 광범위한 응용 분야로 확대되고 있기 때문이다. 오늘날 비즈니스, 특히 영업 및 서비스 업계는 KDD 에서 가장 널리 사용되는 분야 중 하나입니다. 주로 판매 예측, 재고 수요, 소매 지점 선택, 가격 분석 및 판매 패턴 분석에 사용됩니다. 예를 들어 호텔은 특히 높은 소비와 특히 낮은 소비의 고객 이탈 패턴을 분석해 흥미로운 소비 패턴을 발견할 수 있다. edW a-ge ring 의 AutOm 은 고급 소파를 사용하여 재분배된 ModeIMaX 예측 모델을 사용하여 Lo-Lo-Tierymachinesi [Eselection ... 2. 농업. 농업은 거대하고 복잡한 시스템이다. 우리나라 농업 부문은 수십 년 동안 토비 기상 병충해 시장 정보 등에 관한 대량의 데이터, 사례, 경험 지식을 축적했지만 충분히 활용되지 못했다. KDD 를 통해 가치 있고 규칙적인 지식을 많이 발견할 수 있다. 예를 들어, 병충해 데이터베이스에 대한 분석을 통해 병충해의 영향 요인, 이전 또는 전파법을 찾아 재해의 발생, 확대 또는 감소를 억제하고, 국제 국내 시장 정보의 발굴을 통해 농업 생산 계획을 지도한다. 지식 발견의 예 그림 3. 의학 생물학. 의료 업계에는 처리해야 할 대량의 데이터가 있지만, 해당 업계의 데이터는 서로 다른 정보 시스템에 의해 관리되며, 데이터 조직성이 좋지 않고, 유형이 복잡하다. 텍스트, 값, 이미지 등을 포함할 수 있는 의료 진단 데이터 등이 있습니다. , 응용 프로그램에 몇 가지 어려움을 가져옵니다. KDD 는 주로 의학 진단 및 분석, 성분-효용 분석, 신약 개발 및 약물 생산 공정 관리 최적화에 사용됩니다. 4. 금융보험. 재정은 대량의 데이터를 수집 및 처리하고, 분석하고, 데이터 패턴과 특성을 찾아내 고객, 소비자 그룹 또는 조직의 재무 및 상업적 이익을 찾아내고, 금융 시장의 변화 추세를 관찰해야 합니다. KDD 는 금융, 주식 시장 분석 및 예측, 계좌 분류, 은행 보증 및 신용 평가와 같은 금융 분야에서 널리 사용되고 있습니다. 5. 통신 및 미디어. 회선 장애 예측, 시청률 영향 요인, 웹 사이트 침입 탐지, 웹 정보 발견 등. 6. 국방 및 군사 측면. 군사 정보 데이터 분석, 지휘 자동화 및 의사 결정, 전쟁 위험 예측, 무기 공격 효과 분석, 지리 데이터 분석 등. 기타 측면. 산업 생산에서의 장비 고장 진단, 생산 공정 최적화, 과학 연구에서의 데이터 처리 및 분석, 기상 분석 및 예측 등