기계학습(Machine Learning)에 대해서 관심이 높아지는 것 같습니다. 하지만 관련된 자료가 많지 않은 듯 해서 올려봅니다. 먼저 최근 Facebook 친구가 되신 분의 타임라인에 올라와서 확인한 자료인데요. 빅데이터에서의 기계학습(Machine Learning on Big Data)로서 잘 구성된 것 같습니다. 이 자료에 대한 설명과 함께 들으면 좋겠다는 생각이 들기도 하네요.. Machine Learning on Big Data from Max Lin 그리고 스탠포드 대학의 Andrew Ng 교수의 Machine Learning 강의도 훌륭합니다. iTunes University에서 "Machine Learning"으로 검색해도 나오구요. Coursera에서도 무료로 볼 수 있습니다. (ht..
예전에 소크라테스하면 "너 자신을 알라", "악법도 법이다"라는 말이 가장 먼저 떠올랐습니다. 사람들에게 무지함을 일깨우고 독이 든 성배를 마셔 법을 준수하는 모습을 보였다고 하는 소크라테스.. 그의 제자인 플라톤의 책 "소크라테스의 변명"을 통해서 살펴볼 수 있었습니다. 지난번 읽은 소크라테스 이전 철학자보다 훨씬 읽기도 편하고 쉽게 느껴지는 책입니다. ^^ 소크라테스의 변명 통독: 2013.04.19 ~ 2013.04.22 소크라테스가 법정에 서게 된 이유부터 최후 변론까지 정리된 글입니다. 소크라테스가 자연을 탐구하는 자라는 고소 내용중의 하나에 대해 그는 자연철학자를 경멸하지는 않지만 스스로 자연에 대한 사색과는 관계가 없다고 말합니다. 실제로 소크라테스는 자연보다는 인간을 탐구하는 것이 더 중요..
빅데이터의 등장과 함께 Analytics에 대한 관심도 높아지고 있습니다. 넓은 의미의 Analytics는 의사 결정권자에게 실행할 수 있는 인사이트를 제공해주는 것이라 할 수 있습니다. 좁은 의미로는 사용자에게 데이터로부터 패턴을 파악해서 제공할 수 있는 기술이나 프로세스를 말합니다. 일반적으로 IT와 관련된 용어들은 여러가지 측면에서 의미를 부여할 수 있습니다. 보통 비즈니스 측면과 기술적 측면으로 나눠 볼 수 있는데요. Analytics도 넓은 의미는 비즈니스 측면이고 좁은 의미는 기술적인 측면이라고 말 할 수 있겠죠. 넓은 의미의 Analytics 일반적으로 데이터를 분석하는 목표는 비즈니스를 성공적으로 이끌어내기 위함입니다. 즉, 넓은 의미의 Analytics는 비즈니스 자체에 목적을 두고 있다..
이전에 살펴본 베이즈 확률(Bayesian Probabilities)과 가우스 분포(Gaussian Distribution) 에서 Frequentest와 Bayesian에 대해서 정리를 했었습니다. 실제 Curve Fitting에서 이 두가지 방식이 어떻게 적용되는지 살펴보도록 하죠. Curve Fitting에 대해서는 기계학습 첫 강좌에서 설명했었습니다. 주어진 입력값 x에 대한 타겟을 t라고 했을 때, x에 대응하는 값 y(x, w)에 대해 다음과 같은 관계가 성립한다고 합니다. 다음 그림을 옆으로 보면 y(x,w)에 대해 정규 분포의 형식을 가지고 있는 것을 알 수 있습니다. 정규분포를 따르므로 y(x,w)는 평균, β−1은 분산이 된다는 것을 알 수 있습니다. 앞서 정리한 가우스 분포(정규 분포)..
확률에서 많이 사용하는 베이즈 정리는 "확률 - 일어날 가능성을 측정하는 방법"의 끝부분에도 간략하게 정리했었습니다. 이번에는 베이즈 정리를 좀 더 깊이있게 알아보도록 하죠. 베이즈 확률 (Bayesian Probabilities) 실생활에서 베이즈 정리는 스펨 메일 필터링이나 유전자 검사 등에서 활용한다고 했습니다. 기계학습에서도 이런 베이즈 정리를 많이 사용하는데요. 이전의 기계학습 예제를 설명할 때, Training Set에서 주어진 X에 대해 적절한 곡선을 만들어 주는 것을 Curve fitting이라고 했었습니다. 이러한 Curve fitting을 하는 방법이 보통 두가지가 있는데요. 하나는 Frequentist treatment이고 나머지 하나가 Bayesian treatment입니다. 여기에..
통독: 2013.01.01 ~ 2013.04.06 올해부터 인문고전이나 철학책을 틈틈이 읽어보려고 합니다. 그 첫번째로 선택한 책이 바로 "소크라테스 이전 철학자들의 단편 선집"입니다. 그리스 철학이라고 하면 소크라테스-플라톤-아리스토텔레스를 이야기 하는데 그 이전의 철학자들의 관심과 생각들이 궁금해서 선택하게 되었습니다. 그런데 역시 어렵네요.. ^^ 통독을 하는데 무려 3개월여가 걸렸습니다. 이 책만 들고 있으면 졸기도 하고 이해도 안되는 부분도 상당히 많았습니다. 하지만 그 시대에 모두들 신이 세상을 만들었다는 신화적 사고에서 벗어나지 못하고 있을 때, 자연과 인간에 대한 탐구를 통해 새로운 생각들을 만들어 낸 초기 철학자들의 모습을 과거의 단편적인 인용 속에서 살펴볼 수 있었던 점은 좋았습니다. ..
MS 윈도우즈 모바일의 Metro UI를 가진 아이폰용 앱이 있네요. 바로 주소록 관리 앱인 Fliple인데요. 예전에 iOS용 앱을 만들면서 둥근 사각형으로 구성된 리스트를 넣었다가 거절당했던 기억이 있는데 아예 Metro UI로 사각형으로 만들면 문제 없나 봅니다. ^^ 환경설정 메뉴를 보면 폰트나 구성이 마치 Windows Mobile을 사용하는 느낌을 주네요. 특히 주소록 자체에 대한 커스터마이징이나 구성이 잘 되어 있어서 앱 자체도 매력적입니다. 다만, 구글 주소록을 연동했을 경우 못 가져오고 iPhone 내부에 저장된 주소록만 가져오는 것이 조금 아쉽네요. Fliple의 iOS 버전은 https://itunes.apple.com/us/app/fliple./id579996534?mt=8 에서 받..
확률과 관련한 Sum Rule과 Product Rule에 대해서 살펴봤는데요. 주로 이산 변수에 대한 확률이라면 이번에는 연속 변수에 대한 확률을 정리해 보도록 하죠. Probability Density 연속 함수는 다음과 같은 그림으로 나타낼 수 있습니다. 연속 함수의 확률을 구하기 위해서는 각 구간을 조그맣게 자르고 그 간격을 δx라고 표시합니다. 그리고 연속함수의 임의의 변수 x가 (x, x+δx)에 있다고 할 때, 변수 x가 나올 확률은 p(x)δx로 표시할 수 있습니다. 최종적으로 (a, b) 구간 사이에 변수 x가 있을 확률은 위에서 구한 p(x)δx를 모두 합하면 됩니다. 연속함수이므로 이러한 합을 구하는 것은 바로 적분을 사용하면 됩니다. 확률이므로 p(x)는 0보다 크고 모든 확률의 합은..
기계학습에서 많이 사용하는 확률 이론에 대해서 살펴보도록 하겠습니다. 확률과 관련해서 처음 볼 경우에는 확률 - 일어날 가능성을 측정하는 방법 을 읽어보면 기본 개념을 이해할 수 있습니다. 여기에서는 비슷한 내용이기는 하지만 다른 방향에서 살펴보도록 하죠.. 다음 그림에서 전체 갯수가 N이라고 할 때, 임의의 값 x와 y가 동시에 나올 확률은 어떻게 될까요? x와 y가 동시에 나오는 경우를 전체 갯수로 나누면 되겠죠. 보통 동시에 나올 확률을 교집합으로 표기하기도 하는데, "Pattern Recognition and Machine Learning"에서는 다음과 같이 표시하네요. 이어서 임의의 x가 나올 확률은 다음과 같이 표시할 수 있습니다. 위 그림을 잘 살펴보면 직관적으로 확인할 수 있을 것입니다. ..
Christoper M. Bishop이 쓴 "Pattern Recognition and Machine Learning" 이란 책을 스터디하고 있습니다. 기계학습(Machine Learning)을 배워보기 위해서 살펴보고 있는데요. 책이 재미있으면서도 조금은 난이도가 있네요. 기계학습이란? 기계학습은 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야를 의미합니다. 이를 통해 다양한 패턴 인식이나 예측등을 수행할 수 있겠죠. 기계학습을 하기위해서는 수학적 배경 지식들이 중요한데요. 이 책에서도 1장에서 베이즈확률(Bayesian probabilities)와 함께 정규분포를 다룬 Gaussian Distribution 등 여러가지 이야기들이 나오고 있습니다. 앞으로 계속 하나씩 정리해 보도록 하죠. ..