디지털 시대의 핵심 자원은 데이터이다. 웹은 이러한 데이터를 실시간으로 제공하는 거대한 정보의 바다이며, 데이터사이언스에서 웹 데이터 수집은 필수적인 과정이다. 웹은 다양한 형태의 데이터를 제공하며, 이를 바탕으로 경쟁력 있는 머신러닝 모델을 개발하거나 비즈니스 의사결정을 개선할 수 있다. 웹 데이터를 잘 활용하면 트렌드를 예측하고, 고객의 니즈를 파악하며, 변화하는 환경에 신속하게 대응할 수 있다. 이 책은 웹 데이터를 수집하는 웹크롤러를 파이썬으로 설계하는 전 과정을 다룬다.
파이썬 초보자들도 그 과정을 이해할 수 있도록 초반부에서는 파이썬의 변수, 조건문, 반복문 등의 기본 문법을 소개하고 시퀀스 객체, 함수, 클래스 등의 기초 개념과 데이터 수집 과정에서 발생할 수 있는 문자 인코딩 오류와 정규 표현식 등을 처리하는 방법을 설명하였다.
후반부에는 웹크롤링의 기본 방법인 BeautifulSoup, Requests 같은 라이브러리를 활용하여 웹페이지를 요청하는 방법을 다루었다. HTML 웹 페이지의 문서 구조를 분석하여 필요한 정보를 추출하는 과정을 단계적으로 설명하였고, 대량의 웹 데이터를 반복하여 수집하는 방법을 설명하였다. 이를 위해 블록체인 기반 소셜 네트워크인 steemit.com에 게시된 포스트의 구조를 분석하고, 효율적으로 그 포스트를 수집하는 시스템을 설계한다. 그 외 수집된 웹데이터를 CSV 파일, JSON 파일, 엑셀 파일 등으로 저장하는 기법을 다루었다.
1992~2003년 서강대 컴퓨터공학 학사, 석사, 박사
2003~2005년 서강대 정보통신대학원 대우교수
2004~2005년 LG전자 연구원
2005~2007년 동서대학교
2013~2014년 플로리다 주립대 교환교수
2019~2020년 플로리다 주립대 교환교수
2007~ 현재 한국교통대 AI데이터공학부 교수