모바일 개발이나 각종 사이트를 처리할 때 HTML 페이지를 가져와서 분석하는 경우가 종종 있습니다. 보통 HTML 파싱할 때 정규식을 이용해서 했었는데요. 단점이 태그와 같은 것이 중첩되어 있을 경우, 첫번째 태그까지만 찾게 되는 것이었습니다. 아무래도 정규식 자체가 문자열 매칭이기 때문에 한계가 있는 것 같구요. 결국 DOM과 같은 구조를 사용하지 않으면 안될 것 같다는 생각이 들었습니다. 예전에 Javascript에서 쓸 수 있는 HTML Parser도 한번 소개한 적이 있기는 한데요. 오늘은 Java에서 활용할 수 있는 HTML Parser인 jsoup에 대해서 이야기 해보려고 합니다. jsoup: Java HTML Parserjsoup은 실제 사용하는 HTML을 처리할 수 있는 자바 라이브러리인데..
지난주 24~25일 동안 요즘 핫 이슈인 클라우드 관련 세미나에 참석했습니다. SKT의 전민흥 차장님, 노영태 부장님, 오라클 장성우 상무님, 틸론의 이춘성 이사님, 모비젠의 김태수 이사님 등 많은 분들이 강의를 해주셨구요. 요즘 클라우드에 관심이 많아서인지 개인적으로도 상당히 의미있었던 세미나 였던 것 같습니다. 아쉽게도 클라우드 컴퓨팅 관련한 개요, 구성기술, 공개 SW, 모바일 클라우드에 대한 부분은 참석을 못하고 첫째날 오후부터 듣게 되었네요. 어쨌든 기존의 이해하고 있던 IaaS, PaaS, SaaS의 개념에 public, private, personal 클라우드에 대한 내용도 이해하게 되었네요. 정말 클라우드의 범위가 상당히 광범위한 것 같습니다. 그러나 초창기의 그저 구름 잡는 것 같았던 클..
하둡과 관련되어 작성한 글 목록을 먼저 보여드립니다. 참고하시기 바랍니다. 2012/02/29 - [리뷰/블로그] - BigData 처리를 위한 맵리듀스(MapReduce)에 대하여~ 2012/05/18 - [프로그래밍/Java] - 하둡(Hadoop) 설치부터 테스트까지 정리~ 2012/05/22 - [프로그래밍/Java] - 하둡 맵리듀스 프로그래밍을 위한 이클립스 플러그인 설정 #1 지난 시간에 Mac에 이클립스 플러그인을 설치하는 과정을 살펴봤는데요. 마지막에 설명한 것처럼 플러그인의 장점을 충분히 살리지 못하고 있으며 약간의 버그들도 존해하기 때문에 큰 의미가 없었습니다. 그래서 이번에는 일반적인 자바 프로젝트로 개발 환경을 설정하고 word count를 처리하는 예제를 실제로 실행해 보도록 하..
Proxy를 이용해서 HTML 소스를 가져와야 하는 경우가 있을 때 유용할 것 같습니다. 개발 세상만사님의 스프링노트에서 가져왔습니다. 나중을 위해 소스를 옮겨 봅니다. 중간에 "아이피", "포트"는 public proxy를 검색하셔서 지정해 주면 될 것 같네요. 단, Proxy는 확실히 속도가 느린 것 같습니다. 또한 Proxy 서버를 통할 경우, HTTP 프로토콜로 주고받은 데이터가 모두 Proxy 서버에 저장되므로 주의하셔야 합니다. package gathering; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.InetSocketAddre..
요즘 하둡(Hadoop)을 계속해서 테스트해보고 있습니다. 지난번에 설치는 2012/05/18 - [프로그래밍/Java] - 하둡(Hadoop) 설치부터 테스트까지 정리~ 에서 정리했었는데요. 이번에는 맵리듀스 프로그래밍을 위한 이클립스 설정을 살펴보도록 하겠습니다. 참고로 이번부터는 맥에서 하둡을 설치하고 테스트를 진행했네요. Apache Ant / Ivy 다운로드 및 설치하둡 내부의 소스 폴더를 보면 ant build를 많이 사용하고 있습니다. 자바 프로젝트를 하면서 Ant는 기본적으로 설치되어 있을텐데요. 제 Mac에서도 /usr/share/java/ant-1.8.2/에 설치되어 있네요. Ant가 설치되어 있으면 이어서 Apache Ivy를 설치해야 합니다. 하둡에서도 Ivy를 사용하고 있는데요. ..
지난번에 맵리듀스에 대해서는 한번 정리한 적이 있는데요. 오늘은 하둡(Hadoop)을 설치하고 환경변수들을 설정한 후, 기본 예제인 Word Count를 실행해보도록 하겠습니다. 백문이 불여일견이라고 내용을 아무리 보는 것 보다 직접 해보는 것이 확실히 도움이 되는 것 같습니다. 하둡(Hadoop) 설치하둡은 HDFS, MapReduce를 소프트웨어로 구현한 것으로 아파치 Top-Level 프로젝트입니다. 코어는 Java, C/C++, Python등을 지원하는데요. 기본적으로 JDK는 설치되어 있어야 Hadoop을 구동할 수 있습니다. 하둡을 구동하기 위해서는 리눅스 환경이 좋은데요. 윈도우는 경우에는 가상머신을 활용하면 됩니다. (맥은 설치가 됩니다.) 저는 우분투를 PC에 설치해서 하둡 설치를 진행했..
HTML에서 문서 제목 부분은 어떻게 쓸까? HTML 문서도 일반 문서처럼 제목, 소제목 들을 사용하는 경우가 많이 있습니다. 이때 여러분은 어떤 태그를 많이 사용하는지요? 아마도 대부분은 다음과 같은 형태를 많이 사용할 것 같습니다. 미니의 프로그래밍 이야기 여기에 태그는 사용하지 않는게 좋다고 하니 CSS의 style을 적용해서 폰트 크기를 키우기도 하겠죠.. 미니의 프로그래밍 이야기 원하는 크기대로 나오고 괜찮은 것 같다고 생각합니다. 그러나 이렇게 작성하면 HTML 태그의 기본 속성인 의미 전달이 안됩니다. 즉, 위 부분만 보고서 문서의 제목이라고 판단하기는 쉽지 않기 때문이죠.. (주로 누가 문서만 보고 판단을 할까요? 한번 생각해 보세요 ^^) 그래서 태그를 한번 사용해 봅니다. CSS의 cl..
리스트 태그는 언제 사용할까?제 블로그에 있는 분류 목록을 화면에 출력한다고 생각해 보죠. 가장 간단한 방법은 다음과 같이 태그를 사용하는 것입니다. Beginner XML Developer 프로젝트관리론 컴퓨터공학 프로그래밍 리뷰 미니이야기 원하는대로 리스트 형태로 출력되기는 합니다. 그러나 이런 코딩에서 문제점은 무엇일까요? 이 리스트에 스타일을 변경시킨다면 즉, 색상을 바꾸거나 글꼴이나 크기를 변경할 경우, 현재 상태에서는 각각의 라인에 태그를 적용하는 방법이나 각각 태그를 넣고 CSS의 class로 스타일을 적용하는 방법 뿐으로 보입니다. 이런 경우에 바로 리스트 태그를 사용해야 합니다. 위와 같은 경우는 순서가 중요하지 않기 때문에 태그로 감싼 태그를 사용하면 되겠죠. 그럼 리스트 태그에 대해서..
시작하면서현재 IT 프로그래밍을 보면 정말 배워야 할 것이 너무 많은 것 같습니다. Java 분야만 해도 JSP, Java, Struts, Spring, Hibernate, SiteMesh, iBatis, Google App Engine, Hadoop, NoSQL 등등.. 정말 나열해 보니 끝도 없네요. 아마 요즘 시대에 프로그래밍을 시작했다면 막막했을지도 모르겠습니다. 학교에서 강의를 하면서 항상 기본부터 시작하라고 이야기를 많이 합니다. 그래서 저도 최근 이슈들을 하나씩 정리하려구 하고요. 그 첫번째로 웹 표준부터 시작하려고 합니다. 90년대 후반 처음 웹 프로그래밍을 시작할 때, HTML 태그를 배웠던 기억이 납니다. 태그로 글꼴의 크기나 색상을 이쁘게 하고 으로 구조를 잡기도 하고, 태그 정도 쓰..
- Total
- Today
- Yesterday
- 통계
- XML
- HTML
- 맥
- 모바일
- 자바
- ms
- 애플
- 하둡
- 빅데이터
- SCORM
- 분석
- 웹
- 자바스크립트
- 안드로이드
- 세미나
- 디자인
- 클라우드
- 구글
- 도서
- Hadoop
- 프로젝트
- 마케팅
- r
- 책
- 아이폰
- java
- mysql
- fingra.ph
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |