걸리버 여행기 - 조나단 스위프트 지음, 신현철 옮김/문학수첩 통독: 2013.12.22 ~ 2014.03.08 조너선 스위프트(Jonathan Swift)의 걸리버 여행기 완역본이라고 한다. 어릴 때 봤던 소인국과 거인국 이야기의 동화책인 걸리버 여행기는 아니다. 비평가들에 의해 변경, 삭제 되어 정치적 위험이 없는 아동용 도서로 둔갑한 것이라고 한다. 걸리버 여행기는 기존에 알고 있던 "작은 사람들의 나라", "큰 사람들의 나라"와 더불어 "하늘을 나는 섬의 나라"와 "말들의 나라"로 총 4부로 구성되어 있다. 내용적으로도 정치, 사회, 법률, 학문, 역사에 대해 신랄한 비판과 풍자가 들이었는 소설이다. "작은 사람들의 나라"에서는 기존 정치에서 말도 안되는 것들을 신랄하게 비판한다. 줄타기로 관직을..
인터넷 광고와 관련된 용어들이 CPM, CPC 등 약자로 되어 있죠.. 이번 기회에 전체적으로 정리해 보려고 한다. CTR (Click Through Rate) 인터넷 광고는 노출을 기반으로 클릭해서 해당 웹 페이지나 모바일 앱 다운로드로 이동하는 것이다. 그러므로 노출 대비 클릭이 얼마나 일어나는지를 측정할 필요가 있는데 이를 CTR이라고 한다. CTR = (광고 클릭수 / 광고 노출수) x 100 CPM (Cost per Thousand Impressions) 광고를 1,000회 노출할 때 들어가는 광고비용을 의미한다. 흔히 노출 광고라는 것이 이에 해당하며 주로 포탈 메인등에 집행되는 광고다. CPM = (광고 비용 / 광고 노출수) x 1000 CPC (Cost per Click) 광고 클릭당 광..
뭔가 어설프게 알고 있다는 것이 찜찜할 때가 많다. 자주 사용하지 않다보니 대략 알고 있다가 필요할 때마다 또 찾아보고 넘어가는 것 같다. 그래서 RAID의 종류와 특징에 대해서 간략하게 정리해 놓으려고 한다. RAID란 RAID는 Redundant Array of Inexpensive Disks의 약자로 디스크를 병렬로 연결하여 사용하는 기법으로 각 레벨에 따라 신뢰성을 높이거나 속도를 향상하기 위해 사용한다. RAID를 이해하기 위해 "스트라이핑(Striping)"과 "미러링(Mirring)"에 대해서 먼저 알고 있어야 한다. 스트라이핑은 논리적으로 연속된 데이터 세그먼트들이 물리적으로 여러 개의 디스크 드라이브에 라운드로빈 방식으로 나누어 저장하는 것이다. 쉼게 말해 데이터를 여러 개의 디스크에 일..
웹과 인터넷 환경에서 검색은 가장 중요한 플랫폼이었다. 실제로 한 시대를 풍미했던 최고의 인터넷 기업들은 모두 훌륭한 검색 엔진을 보유하고 있었다. 알타비스타, 야후, 그리고 구글까지 당시 최고의 기술로 검색 서비스를 제공했다. 국내에서도 한미르, 엠파스, 심마니, 네이트, 다음, 네이버 등이 있었다. 하지만 최근 모바일 환경의 트래픽이 점차 늘어남에 따라 웹 검색 뿐만 아니라 모바일 검색에 대한 관심도 높아지고 있다. 물론 모바일 웹은 기존의 웹 검색엔진을 그대로 활용할 수 있지만 문제는 바로 모바일 앱(어플리케이션)이다. 모바일 앱 내부의 자체 검색은 할 수 있지만 여러 모바일 앱 컨텐츠를 외부의 검색으로 활용하기 어렵다는 문제를 가지고 있다. 실제로 모바일 앱 검색 서비스를 제공하던 퀵시(Quixe..
"본 글은 2014년 3월 12일 지디넷코리아에 기고한 칼럼입니다." 빅데이터에 관심이 있다면 데이터 과학자(Data Scientist)에 대해 들어 봤을 것이다. 성공적인 빅데이터 분석을 위해서 데이터 과학자들이 많이 필요하다고 한다. 데이터 과학자는 과연 어떤 역할을 할까? 2012년 하바드 비즈니스 스쿨에서 발표한 '데이터 과학자: 21세기 가장 멋진 직업'(Data Scientist: The Sexiest Job of the 21st Century)이란 자료를 보면 살펴보면 이에 대한 해답이 나와 있다. 데이터 과학자는 복잡하고 수많은 데이터를 구조화해서 분석이 가능하게 만든다. 필요한 데이터를 찾고 서로 연결하기도 하면서 데이터에서 인사이트를 찾아내는 것이다. 그리고 새롭게 찾아낸 인사이트를 비..
카프카(Kafka)는 대용량 실시간 처리를 위해 사용하는 메시징 시스템으로 Pub-Sub 구조로 되어 있다. LinkedIn, Twitter, Netflix, Tumblr, Foursquare 등 대용량을 다루는 업체들이 주로 카프카를 사용하고 있다. 물론 카프라 단독으로 실시간 처리를 구성하지 않고, 스톰(Storm) / 하둡(Hadoop) / HBase 등과 연동해서 활용하는 것이다. 아직까지 국내에서 카프카를 실제 서비스에 많이 활용하고 있지는 않고 오히려 레디스(Redis)와 같은 메모리(In-Memory) 기반의 메시지 큐나 멤캐쉬(memcached)를 더 많이 사용하는 것 같다. 하지만 전세계 40여개가 넘는 대용량을 다루는 업체들이 어떻게 카프카(Kafka)를 사용하고 있는지 한번 정리해 보..
리눅스에서 SSH 사용시 암호 없이 로그인해서 처리해야 할 필요가 있을 때가 있다. Hadoop 설치에서도 각 서버들이 서로 접속할 수 있도록 SSH 설정을 해야 한다고 설명한 적이 있다. 그래서 암호 없이 ssh 로그인하는 부분을 간략하게 정리해 보려고 한다. 먼저 클라이언트에서 ssh-keygen으로 키를 생성해야 한다. # ssh-keygen -t rsa 그리고 .ssh/ 디렉토리에 생성된 id_rsa.pub 파일을 서버로 복사한다. 서버에서 파일명을 authorized_keys로 변경하고 퍼미션을 600으로 설정한다. # mv ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys# chmod 600 authorized_keys 이렇게 서버에 파일을 복사하고 authorized_..
"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다." 최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다. 그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까? 먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한..
SSH를 사용하다보면 접속이 끊겨서 다시 연결해야 하는 경우가 종종 있다. 보안상의 이유로 계속 사용하지 않으면 접속 종료하기 때문이다. 개발 중 잠시 자리를 비우고 돌아왔을 때, SSH가 종료되어 있으면 귀찮기 마련이다. 리눅스에서 SSH 접속을 계속 유지하기 위한 설정에 대해서 한번 정리해 보기로 한다. 원격 서버 설정 SSH로 접속하는 원격 서버에서 설정을 하면 접속하는 클라이언트에 동일하게 적용할 수 있다. 원격 서버 설정은 SSH 데몬의 config 파일을 수정하면 된다. 1. /etc/ssh/sshd_config 파일을 연다. # vi /etc/ssh/sshd_config 2. sshd_config 파일에 다음과 같이 추가한다. ClientAliveInterval 30 ClientAliveCo..
리눅스에서 미리 만들어진 스크립트를 예약된 시간에 실행하는 기능이 필요해서 at 명령어를 사용해 봤습니다. at 명령어와 작업 시간을 지정하고 난 후, 실행할 명령을 입력한 다음 Ctrl + D로 저장하면 됩니다. 예약된 작업의 확인은 atq로 할 수 있습니다. at을 실행하는 데몬은 atd로 /etc/init.d/atd 가 있습니다. 만약 실행되어 있지 않다면 다음과 같이 데몬을 실행할 수 있겠죠. # /etc/init.d/atd start 간략하게 정리해 봤습니다.