머신러닝 데이터 기획자, 자연어 처리 (Machine Learning Data Linguist)
💽

머신러닝 데이터 기획자, 자연어 처리 (Machine Learning Data Linguist)

01 주요 업무

서비스에 탑재된 ML 모델은 사용자의 요청 사항에 따라서 지속적으로 개선해야 합니다. ML 모델의 성능 개선을 위해서 가장 중요한 것은 양질의 학습 데이터이며, 이를 통해 학습된 ML 모델이 실제로 사용자의 요청 사항을 해결했는지 평가하기 위한 평가 데이터의 구축 또한 매우 중요합니다. Machine Learning Data Linguist는 데이터의 관점에서 ML 모델의 성능 향상을 책임지는 분으로써, 데이터에 대한 깊은 이해를 기반으로 다양한 직군(AI/SW 개발자, UI/UX 디자이너 등)과 긴밀하게 협업하며 사용자에게 가치를 주는 ML 모델의 성능 향상을 달성합니다.

  • 어노테이션 가이드라인 작성과 어노테이션 도구에 대한 이해를 기반으로, 어노테이터와 소통하며 ML 모델의 학습/평가 데이터 구축 프로젝트를 리드하시게 됩니다.
  • 학습된 모델의 예측 결과를 살펴보고 데이터 관점에서 ML 모델의 개선 방향성을 탐색하며, 이를 어노테이션 가이드라인으로 문서화하고 ML 모델의 학습 및 평가 데이터를 양적/질적으로 개선하게 됩니다.

02 자격 요건

  • 언어학, 인지과학 혹은 그에 준하는 분야 전공자로써 기초적인 형태론, 구문론, 의미론, 화용론에 대한 이해가 있는 분
  • 한국 인터넷 커뮤니티 문화에 대한 이해를 기반으로 다양한 현실 텍스트 데이터의 맥락을 파악하실 수 있는 분
  • 기초적인 통계학 지식을 바탕으로 ML 모델의 성능을 평가하는 정량적, 정성적 방법을 이해할 수 있는 분
  • ML 모델의 학습 및 평가 데이터의 품질 개선 방향성을 어노테이션 가이드라인으로 꼼꼼하게 표현할 수 있는 분
  • ML 모델 학습용 데이터 구축과 관련된 일련의 프로세스 (가이드라인 작성, 직접 태깅, 다른 사람들과 함께 태깅) 경험이 있으신 분
  • 개발/디자인 등 다양한 직군과 함께 문제를 정의하고 해결책을 찾아나가는 협업 능력을 갖추신 분
  • 여러 가지 프로젝트를 동시에 수행하며 상황에 맞추어 우선순위를 재설정하는 것에 수월하신 분

03 우대 사항

  • 프로그래밍을 통한 데이터 분석 및 혹은 시각화 경험이 있으신 분
  • 영어를 자유롭게 구사하실 수 있으며, 영미권 문화에 대한 이해를 기반으로 다양한 현실 텍스트 데이터의 맥락을 파악하실 수 있는 분
  • 자연어 처리 모델 학습 및 성능 고도화를 위한 데이터 어노테이션 도구 사용 및 관련 프로젝트 수행 경험이 있으신 분
  • 다양한 데이터 포맷(JSON, XML, HTML)에 대한 이해를 기반으로 기초적인 CLI 인터페이스 및 Linux 사용이 가능하신 분
  • NLP 분야 국제 컨퍼런스 (ACL, EMNLP, NAACL, LREC, COLING) 등에 학습/평가 데이터 관련 논문 출판 경험이 있으신 분

04 현재 사용하는 기술

  • Spreadsheet, Python, Linux, Github
  • Label Studio, 자체 제작 어노테이션 툴

05 제출 서류 및 절차

  • 제출 서류
    • 필수 이력서
    • 선택 그 밖의 관련 프로젝트 혹은 실무 경험을 보여줄 수 있는 자료
  • 채용 절차: 서류 심사 → 컬처 핏 인터뷰 → 직무 인터뷰 → 최종 합격
  • 제출 및 문의: careers@softly.ai
    • 메일 제목은 [머신러닝 데이터 기획자 (자연어 처리)] 지원자 이름 형식으로 보내주세요. LinkedIn 간편지원을 통해서도 지원 가능합니다!