기금넷 공식사이트 - 헤지 펀드 - 패턴 분석을 위한 커널 방법 서문

패턴 분석을 위한 커널 방법 서문

데이터 패턴 연구는 과학 연구와 마찬가지로 매우 오랜 역사를 가지고 있습니다. 예를 들어, 티코 브라헤(Tycho Brahe)가 편찬한 대량의 관측 데이터에서 발견된 티코 관계(Tycho Relationships)의 케플러의 작품으로 생각할 수 있는 그의 유명한 행성 운동의 세 가지 법칙을 공식화하여 천문학에서 획기적인 발전을 이룬 요하네스 케플러(Johannes Kepler)를 생각해 보십시오.

마찬가지로 자동 검색 패턴에 대한 욕구는 적어도 컴퓨팅만큼 오랜 역사를 가지고 있습니다. 사람들은 이미 통계, 기계 학습, 데이터 마이닝 등 다양한 과학 및 공학적 방법을 사용하여 이 문제를 해결하기 위해 노력하고 있습니다.

패턴 분석은 데이터의 관계를 (자동) 감지하고 식별하는 작업을 다룹니다. 패턴 분석 분야에서 대부분의 통계 방법과 기계 학습 방법은 데이터가 벡터 형태로 존재하고 관계가 분류 규칙, 회귀 함수 또는 클러스터링 구조로 표현될 수 있다고 가정합니다. 이러한 방법을 통칭하여 종종 "통계 패턴 인식"이라고 합니다. ". "구문 패턴 인식" 또는 "구조적 패턴 인식"은 문자열과 같은 데이터에서 규칙을 탐지하는 것을 목표로 하는 또 다른 접근 방식을 나타냅니다. 이러한 규칙은 종종 문법적이거나 동등한 추상 형태로 존재합니다.

자동화된 패턴 분석 알고리즘의 개발은 세 가지 혁명을 거쳤습니다. 1960년대에는 벡터 집합 내에서 선형 관계를 탐지하기 위한 효율적인 알고리즘이 도입되었으며 이러한 알고리즘의 계산 및 통계적 동작이 분석되었습니다. 1957년에 소개된 퍼셉트론 알고리즘이 그 예입니다. 비선형 관계를 어떻게 찾아낼 것인가 하는 문제가 당시 주요 연구 목표였다. 그럼에도 불구하고 통계 이론이 뒷받침하는 것과 동일한 수준의 효율성을 갖춘 알고리즘을 개발하는 것은 어려운 목표임이 입증되었습니다.

1980년대 패턴 분석 분야는 '비선형 혁명'을 겪으며 역전파 다층 신경망 알고리즘과 효율적인 의사결정나무 학습 알고리즘이 거의 동시에 도입됐다. 이러한 방법은 경험적 방법과 불완전한 통계 분석을 사용했지만 처음으로 비선형 패턴을 탐지하는 것이 가능해졌습니다. 비선형 혁명의 영향은 아무리 강조해도 지나치지 않습니다. 이는 데이터 마이닝, 생물정보학 등 전 분야를 활성화했습니다. 그러나 이러한 비선형 알고리즘은 경사하강법이나 탐욕적 휴리스틱을 기반으로 하므로 국소 최소화의 한계가 있습니다. 또한 사람들은 이러한 알고리즘을 사용할 때 통계적 동작을 잘 이해하지 못하기 때문에 과적합 문제에 자주 직면합니다.

패턴 분석 알고리즘 개발의 세 번째 단계는 1990년대 중반에 커널 기반 학습 방법이라는 새로운 패턴 분석 방법이 등장하면서 이루어졌으며, 이를 통해 연구자들은 비선형 관계를 효율적으로 분석할 수 있게 되었으며, 이전에는 선형 알고리즘에서만 가능했습니다. 통계 분석에서 이 방법을 추가로 개발한 후에는 고차원 특징 공간에서 높은 효율성을 달성하고 과적합 위험을 피할 수도 있습니다. 계산적, 통계적, 개념적 다양한 관점에서 볼 때, 이 세 번째 단계에서 개발된 비선형 패턴 분석 알고리즘은 선형 알고리즘만큼 효율적이고 이론적으로 근거가 있습니다. 신경망 및 의사결정 트리에서 흔히 발생하는 국소 최소화 문제와 과적합 문제도 해결되었습니다. 동시에 이러한 방법은 벡터가 아닌 데이터를 처리하는 데 매우 효과적이므로 다른 패턴 분석 분야와 연결됩니다.

커널 기반 학습 방법은 서포트 벡터 머신(SVM) 형태로 처음 등장했습니다. 서포트 벡터 머신은 위에서 언급한 계산적, 통계적 어려움을 없애기 위해 사용되는 분류입니다. 그러나 분류 이상의 문제를 해결할 수 있는 커널 기반 알고리즘이 곧 등장했습니다. 이러한 접근 방식이 패턴 분석 분야에 혁명을 일으켰다는 것이 점점 더 분명해졌습니다. 여기에서 모든 새로운 도구와 기술은 엄격한 이론적 분석을 통해 구동되며 계산 효율성을 보장하면서 제조 또는 개발됩니다.

게다가 이 접근 방식은 다양한 패턴 인식 하위 분야 사이에 존재하는 격차를 메울 수 있습니다. 이는 벡터, 문자열 또는 더 복잡한 객체 등 다양한 유형의 데이터를 생각하고 조작하기 위한 통합 프레임워크를 제공하며 상관 관계, 순열, 클러스터링 등을 포함한 다양한 유형의 패턴 분석을 수행할 수도 있습니다.

이 책은 이 새로운 접근 방식에 대한 개요를 제공합니다. 우리는 젊고 성장하고 있는 연구팀의 10년간의 심층적인 연구를 이 책의 장에 응축하려고 노력했습니다. 이 팀의 연구원들은 실무자들의 도구 상자의 중요한 부분이 된 일련의 패턴 분석 방법을 만들기 위해 협력해 왔습니다.

이 책에 소개된 알고리즘은 전통적인 분류 및 회귀 문제부터 순열 및 클러스터링과 같은 보다 전문화된 다양한 문제에 이르기까지 다양한 관계를 식별하여 주성분 분석 및 표준 상관 분석을 포함할 수 있습니다. . 첨단 기술. 게다가 각 패턴 분석 문제는 이 책의 마지막 부분에서 논의된 커널 라이브러리의 함수 클래스와 함께 적용될 수 있습니다. 이는 이 분석이 표준 벡터 유형부터 이미지 및 텍스트 문서와 같은 보다 복잡한 개체, 생물학적 서열, 그래프 및 문법과 관련된 고급 데이터 유형에 이르기까지 다양한 데이터에 사용될 수 있음을 의미합니다.

커널 기반 분석은 수학자, 과학자, 엔지니어를 위한 강력하고 새로운 도구입니다. 이는 패턴 분석, 신호 처리, 구문 패턴 인식 및 기타 패턴 인식(스플라인에서 신경망까지) 분야에 적용할 수 있는 매우 풍부한 방법을 제공합니다. 간단히 말해서, 그것은 우리가 아직 이해하지 못한 잠재력을 지닌 새로운 관점을 제공합니다.

이 책의 저자는 커널 기반 학습 알고리즘 개발에 참여하여 이 방법의 이론, 구현, 응용 및 대중화에 많은 공헌을 했습니다. 그들의 저서 "An Introduction to Support Vector Machines"는 많은 대학에서 교과서 및 연구 참고서로 사용되었습니다. 저자는 또한 새로운 연구 주제와 "이미지 및 텍스트를 위한 커널 방법(KerMIT)"을 정의하는 "신경 및 계산 학습(NeuroCOLT)" 연구에 기여하는 유럽 위원회 지원 워킹 그룹의 일원이기도 합니다. 문서 분석 분야에 적용된 프로젝트에서 중요한 역할을 합니다.

저자는 토론에 참여하고, 제안을 하고, 많은 경우 매우 상세하고 계몽적인 피드백을 제공함으로써 이 책에 기여한 많은 사람들에게 감사를 표하고 싶습니다. Gert Lanckriet, Michinari Momma, Kristin Bennett, Tijl DeBie, Roman Rosipal, Christina Leslie, Craig Saunders, Bernhard Scho··lkopf, Nicolò Cesa?Bianchi, Peter Bartlett, Colin Campbell, William Noble, Prabir Burman, Jean?Philippe에게 특별히 감사드립니다. Vert, Michael Jordan, Manju Pai, Andrea Frome, Chris Watkins, Juho Rousu, Thore Graepel, Ralf Herbrich 및 David Hardoon. 저자는 또한 커널 기반 학습 방법에 대한 연구를 지원해 준 유럽 위원회와 영국 기금 위원회 EPSRC에 감사의 말씀을 전하고 싶습니다.

넬로 크리스티아니니(Nello Cristianini)는 캘리포니아 대학교 데이비스(UC Davis) 통계학과 조교수입니다. Nello는 2001년부터 2002년까지 Nello가 방문 강사로 재직할 때 환대를 베풀어 준 캘리포니아 대학교 버클리 캠퍼스(UC Berkeley)의 컴퓨터 과학부와 Mike Jordan에게 감사의 말씀을 전하고 싶습니다. 그는 또한 2002년 여름 동안 그를 초대해 준 MIT 컴퓨터 기반 학습 센터(MIT CBLC)와 Tommy Poggio, 그리고 글쓰기에 이상적인 환경을 제공해준 캘리포니아 대학 데이비스(UC Davis)에도 감사의 말씀을 전하고 싶습니다. UC 데이비스 통계학과의 책입니다. 이 책의 구조 대부분은 캘리포니아 대학, 버클리 대학, 데이비스 대학에서 Nello가 가르친 강좌와 강의 노트를 기반으로 합니다.

John Shawe Taylor는 사우샘프턴 대학의 컴퓨팅 과학 교수입니다. John은 런던대학교 Royal Holloway 컴퓨터공학과의 동료들에게 감사의 말씀을 전하고 싶습니다. 그는 이 책을 집필하는 대부분의 기간 동안 그곳에서 일했습니다.