텍스트, 이미지, 동영상, 음성을 넘나드는 AI 애플리케이션 개발을 위한 완벽 가이드!
구글이 개발한 생성 AI인 제미나이는 텍스트, 이미지, 동영상, 음성 등 다양한 데이터를 동시에 처리하는 멀티모달 AI이다. 이를 활용하면 텍스트+이미지 분석, 음성 기반 챗봇, 동영상 요약 AI 등 고급 AI 서비스를 만들 수 있다. 이 책은 제미나이를 활용해 개인 맞춤형 챗봇 AI 애플리케이션 개발을 목표로 한다. Gemini API를 활용한 AI 개발을 중심으로 구성했으며 코랩, Android, iOS 등 다양한 개발 환경에서도 실습할 수 있다. 또한, AI 개발의 표준 프레임워크인 라마인덱스와 랭체인도 함께 설명하여, 고급 애플리케이션을 보다 손쉽게 개발할 수 있도록 안내한다. 예제를 설명하는 데서 끝나는 것이 아니라, 직접 따라 하며 실행할 수 있는 코드와 단계별로 실습할 수 있어 초보 개발자도 쉽게 AI 애플리케이션을 구축할 수 있다. 더불어, 이 책을 통해서 생성 AI를 전반적으로 이해하고 실무에 활용하는 방법도 익힐 수 있다.
1975년생이며 아이즈 대학 컴퓨터 이공학부 졸업했다. 1999년 『JAVA PRESS』(기술평론사)에서 휴대폰 애플리케이션 개발 방법을 연재하기 시작하였으며, 2000년 주식회사 도완고에서 휴대폰 애플리케이션을 개발했다. 이후 최신 기술을 활용한 애플리케이션을 개발하면서 기술 서적을 집필해왔으며, 25년 동안 약 50권을 출간했다.
현재는 주식회사 젤펨에서 인공지능 연구·개발에 전념하고 있다. 주요 저서로는 『BERT/GPT-3/DALL-E 자연어처리·영상처리·음성처리 인공지능 프로그래밍 실무 입문』, 『Unity로 시작하는 ROS·인공지능 로봇 프로그래밍 실무 입문』, 『알파제로를 분석하며 배우는 인공지능』, 『Unity로 시작하는 머신러닝·강화학습·탐색 인공지능 프로그래밍 실무 입문』, 『Unity로 시작하는 머신러닝·강화학습 Unity ML-Agents 실전 게임 프로그래밍 v2.2 대응판』, 『OpenAI Gym/ Baselines 딥러닝·강화학습 인공지능 프로그래밍 실전 입문』(이상 본디지털) 등이 있다.
1988년생이며 일본 리츠메이칸 대학에서 물리학과를 졸업하고, 동대학원 물리학(이학) 석사 학위를 취득했다. 머신러닝과 딥러닝, 프로그래밍을 독학하며 실무 경력을 쌓았고, 여러 스타트업을 거쳐 현재는 엔닷라이트(NdotLight)에서 AI 리서치 엔지니어로 이미지 생성 모델 및 대규모 언어 모델을 활용한 기능 개발에 힘쓰고 있다(대표 서비스: https://surfee.io/). 전공은 끈이론과 등각장론이지만, 형식적인 물리학 이론이나 수학이라면 대부분 좋아하고(특히 양자역학과 일반상대성이론), 최근에는 양자 컴퓨터와 관련된 서적을 읽으며 여가 시간을 보낸다.