기금넷 공식사이트 - 회사 연구 - 심층분석: 인공지능 분야에서 딥러닝이 인기를 끄는 이유는 무엇인가요?

심층분석: 인공지능 분야에서 딥러닝이 인기를 끄는 이유는 무엇인가요?

딥러닝은 먼저 이미지, 소리, 의미 인식 분야에서 큰 발전을 이루었습니다. 특히 이미지와 소리 분야에서는 기존 알고리즘에 비해 인식률이 크게 향상되었습니다. 딥러닝은 외부 세계를 인식하기 위해 인간의 뇌를 모방하는 알고리즘으로, 가장 직접적인 외부 자연 신호는 이미지, 사운드, 텍스트(비의미론적)입니다.

이미지 인식: 이미지는 딥러닝의 초기 분야입니다. Daniel Yann LeCun은 1989년부터 컨볼루션 신경망에 대한 연구를 시작하여 소규모(손으로 쓴) 이미지 인식을 달성했습니다. Hinton과 그의 학생들이 2012년 ImageNet에서 획기적인 발전을 이루기 전까지는 픽셀이 풍부한 이미지로 인식 정확도가 크게 향상되었습니다. 2014년 홍콩 중문대학교 Tang Xiaoou 교수가 이끄는 컴퓨터 비전 연구 그룹은 DeepID라는 딥러닝 모델을 개발하여 널리 사용되는 테스트 벤치마크인 LFW(Labeled Faces in the Wild)에서 99.15의 인식률을 달성했습니다. LFW의 인간 눈 인식률은 97.52로, 학술 연구 수준에서 딥 러닝이 LFW의 인간 눈 인식률을 능가했습니다.

물론 실제 장면에서 얼굴 인식을 처리할 때는 여전히 만족스럽지 않습니다. 예를 들어 불분명한 얼굴, 조명 조건, 국부적 폐색 등의 요인이 인식률에 영향을 주기 때문에 실제 작업에서는 머신러닝이 필요합니다. 수동 확인과 결합되어 더 적합합니다. 중국에는 얼굴 인식을 수행하는 회사가 많이 있으며 그 중 Face, Zhongke Osun, Sensetime, Linkface 및 Feisou Technology가 모두 선두에 있으며 실제 응용 프로그램이나 수직 분할 분야에서 심층적인 데이터 축적을 제공합니다. 얼굴특징인식 기술을 기반으로 한 감정인식 분야에서는 국내 스타트업 중 이 분야에 진출한 몇 안 되는 스타트업 중 위에미안테크놀로지(Yuemian Technology)와 페이스싱크(페이스씽크는 엔젤베이의 초기 투자 프로젝트)가 있다.

음성인식 : 음성인식은 오랫동안 독점 모델링 방식이었던 가우스 혼합 모델을 사용해 모델링해 왔지만, 음성인식의 오류율을 줄인다고는 하지만 상용화된- 레벨 애플리케이션은 여전히 ​​어렵습니다. 즉, 실제 시끄러운 환경에서는 사용 가능한 레벨에 도달할 수 없습니다. 딥러닝이 등장하기 전까지 인식오류율은 기존 최고 대비 30% 이상 감소해 상용화 수준에 이르렀다. Microsoft의 Yu Dong 박사와 Deng Li 박사는 Hinton과 함께 최초로 음성 인식에 딥 러닝을 도입하여 성공을 거두었습니다. 음성 인식 알고리즘의 성숙도로 인해 iFlytek, Yunzhisheng 및 Speed의 인식률은 일반적인 인식에서 유사합니다. iFlytek은 모바일 인터넷, 차량 인터넷, 스마트 홈을 포함하여 군사 응용 프로그램에서 민간 응용 프로그램에 이르기까지 홍보의 선구자입니다. 폭넓게 참여하고 있습니다.

NLP(자연어 처리): 이미지 인식이나 음성 인식과 같은 NLP 분야에서는 딥러닝이 성과를 거두지 못했지만 여전히 통계 기반 모델이 NLP의 주류를 이루고 있습니다. 의미 분석을 통해 단어와 키워드를 일치시키고, 알고리즘이 문장 기능을 결정(이 문장에 가장 가까운 레이블이 있는 문장을 계산)하고, 최종적으로 미리 준비된 데이터베이스에서 사용자 출력 결과를 제공합니다. 분명히 이것은 지능적이지 않습니다. 검색 기능의 구현으로 간주될 수 있지만 실제 언어 능력이 부족합니다. Apple의 Siri, Microsoft의 XiaoIce, Anwang의 Xiao Lingling은 모두 지능형 채팅 로봇 분야에서 일하고 있습니다. Xiao Lingling은 많은 경쟁자들 사이에서 매우 흥미롭습니다. 그녀의 아이디어는 "저와 자연스럽게 채팅할 수 있습니다"인 반면, 다른 경쟁사들은 특정 틈새 영역에 집중하지만 여전히 틈새 영역에서 보편적인 채팅이 필요합니다.

NLP 분야에서 딥러닝의 발전이 더딘 이유: 음성과 이미지의 경우 구성 요소(윤곽선, 선, 음성 프레임)가 전처리 없이 개체나 음소를 명확하게 반영할 수 있으며, 단순히 인식 작업을 위해 신경망에 적용됩니다.

의미론적 인식은 상당히 다릅니다. 첫째, 텍스트의 문장은 뇌에 의해 사전 처리되며 자연스러운 신호가 아닙니다. 둘째, 단어 간의 유사성이 의미가 유사하다는 의미는 아니며 간단한 구문의 의미는 다음과 같습니다. 결합되면 모호함(특히 중국어에서 예를 들어 "Wan Wan Wan Unexpected"는 Wan Wan이라는 사람을 의미하는지, "예상치 못한"을 의미하는지, 예상치 못한 것을 의미하는지, 아니면 영화의 이름인지) 대화에 상황에 맞는 정보가 필요합니까? 언어 환경을 이해하려면 기계가 추론 능력을 갖추고 있어야 하며, 많은 의사소통에는 지식이 필요합니다. 흥미롭게도 인간 두뇌의 인식 메커니즘을 기반으로 한 딥러닝은 인간 두뇌가 처리하는 텍스트 신호에 만족스럽지 못한 영향을 미칩니다. 근본적으로 현재 알고리즘은 아직 약한 인공지능이다. 인간이 신속하게 자동실행(인식)을 수행할 수 있도록 도와줄 수는 있지만, 여전히 문제 자체를 이해하지는 못한다.