머신러닝 데이터 매니저, 자연어 처리 (Machine Learning Data Manager, NLP)

정보 탐색 과정을 효과적으로 돕기 위해 핵심이 되는 Information Retrieval 관련 기술과 Large Language Model 의 학습 및 성능 평가에 필요한 데이터 전반을 제작하고 관리합니다. 이제 AI 모델이 생성하는 결과물은 제품 사용 경험에 중요한 영향을 미치기 때문에, 이를 사용자가 선호하는 방향으로 지속적으로 개선하기 위해 사용자 피드백 기반의 강화학습(Reinforcement Learning from Human Feedback)을 포함한 다양한 방법론을 활용할 수 있습니다. 유창한 언어를 구사하는 AI 모델의 출력 결과를 분석하고 다양한 관점에서 성능을 측정하여 어떤 결과물이 사용자에게 더욱 도움이 되는지(helpfulness), 해가 되지 않는지(harmlessness), 그리고 정확한 정보를 전달하는지(honest)를 end-to-end 관점에서 판단하여 데이터를 통한 AI 모델의 성능 향상을 책임지고, 머신러닝 엔지니어 분들과 함께 AI 모델의 Human Alignment을 달성합니다.
다양한 정형, 비정형 데이터를 다루고 통계학 및 공학 기반의 데이터 분석 기법을 적용하여 인사이트를 도출하는 데이터 분석가와 다소 차이가 큰 직무입니다. 주요 업무로 빅데이터 분석, 비정형 데이터 분석 등의 업무를 기대하시는 경우 채용 인터뷰 진행이 어려울 수 있습니다.

AI 모델의 학습 및 평가 데이터셋 제작 방법 및 개선 방향성을 논리적이고 꼼꼼하게 문서화 할 수 있는 분
다양한 데이터 포맷(JSON, XML, HTML)에 대한 이해 및 기초적인 프로그래밍 기반 LLM API (GPT API 등) 활용에 익숙하신 분
기초적인 통계학 지식을 바탕으로 AI 모델의 성능을 평가하는 정량적, 정성적인 방법을 이해할 수 있는 분
개발/디자인 등 다양한 직군과 함께 문제를 정의하고 해결책을 찾아나가는 협업 능력을 갖추신 분
여러 가지 프로젝트를 동시에 수행하며 상황에 맞추어 우선순위를 재설정하는 것에 수월하신 분

언어 모델(Language Model)을 활용한 제품 개선 혹은 연구 목적 데이터셋 (벤치마크) 제작 경험이 있는 분
사용자 및 고객사 요구 사항에 맞춘 AI 학습 및 평가 데이터 프로젝트 수행 경험이 있으신 분
영어를 자유롭게 구사하실 수 있으며, 영미권 문화에 대한 이해를 기반으로 다양한 영어 데이터의 맥락을 파악하실 수 있는 분
AI 모델 학습 및 성능 고도화를 위한 데이터 레이블링 툴 사용 경험이 있으신 분
NLP 분야 국제 컨퍼런스 (ACL, EMNLP, NAACL, LREC, COLING) 등에 AI 학습/평가 데이터 관련 논문 출판 경험이 있으신 분