Match Group
Company
Senior Machine Learning Software Engineer (ML Platform)
Job Description
[HYPERCONNECT AI - AI Lab 소개]
하이퍼커넥트 AI Lab은 사람과 사람 사이를 연결하는 서비스에서 기존의 기술로는 접근하기 어렵지만 머신러닝 기술을 통해 풀 수 있는 문제들을 찾아내고 해결하여 사용자 경험을 혁신합니다. 이를 위해 영상/음성/자연어/추천 등을 포함하여 다양한 도메인의 수많은 모델을 개발하고, 모바일 및 클라우드 서버를 통해 안정적으로 제공하면서 마주하는 문제들을 해결하여 AI Lab이 만들어 내는 기술이 실제 서비스의 성장에 기여하는 것을 목표로 합니다. 이러한 목표 아래 하이퍼커넥트 AI Lab은 아자르를 포함한 하이퍼커넥트의 제품에 기여하는 머신러닝 기술들을 수년간 발전시켜나가고 있습니다.
[ML Platform Team 소개]
AI Lab 소속 ML Platform 팀은 AI 기술이 비즈니스 임팩트로 빠르게 이어지도록 ML 프로덕션 전반의 과정을 자동화하고 안정화합니다. 또한, 지속 가능한 플랫폼을 통해 조직 전체의 연구 개발 생산성을 극대화하는 것을 목표로 합니다.
현재 50개 이상의 모델을 프로덕션에서 운영하며 발생하는 복잡한 기술적 과제들을 해결하고 있으며, 이러한 미션을 성공적으로 수행하기 위해 다음과 같은 핵심 업무를 담당하고 있습니다.
[클라우드 기반 ML Ops 인프라 구축 및 도구 개발]
제품으로부터 얻은 데이터를 활용하여 모델을 재학습, 평가, 배포하고, 다시 제품을 개선하는 자동화된 선순환 구조(AI Flywheel)를 구축할 수 있도록 ML Ops 컴포넌트들을 개발 및 운영합니다. 대표적으로는 다음과 같은 컴포넌트들이 있습니다.
ArgoCD와 NVIDIA Triton를 이용하여 일원화된 서빙 플랫폼을 제공하여, 다양한 도메인에서 다양한 딥러닝 프레임워크(Tensorflow, PyTorch)로 학습된 모델을 프로덕션으로 빠르게 배포합니다. Argo Workflows 기반의 학습 워크플로우 플랫폼을 제공하여, 사용자가 필요한 워크플로우를 쉽게 작성하고 실행할 수 있도록 지원합니다. 사용자는 워크플로우에 필요한 스펙을 쉽게 작성하고 실행할 수 있습니다. 원시 데이터를 학습에 필요한 데이터로 쉽게 가공하고 이용할 수 있도록 하는 데이터 파이프라인을 제공합니다.
그리고 앞서 소개한 ML Ops 컴포넌트, 플랫폼을 제어하고 활용할 수 있는 개발자 포탈, SDK 및 CLI 도구 등을 제공하며, 이를 통해 지속적 학습 파이프라인을 쉽게 구축할 수 있습니다. 또한 빠르게 발전하는 MLOps 신기술의 PoC를 진행하고, 필요 시 프로덕션에 적용하여 지속적으로 시스템을 개선합니다.
[고성능 GPU 클러스터 구축 및 운영]
원활한 ML 연구 및 대규모 모델 학습을 지원하기 위해, 비즈니스 요구사항에 최적화된 Slurm 기반의 HPC(High-Performance Computing) GPU 클러스터를 설계하고 구축합니다. A100/H100 등 최신 GPU 자원은 물론, 노드 간 병목을 최소화하기 위한 InfiniBand(EDR/HDR/NDR)와 같은 고속 인터커넥트 구성을 포함합니다.
한정된 계산 자원을 연구 조직 내에서 비용 효율적으로 공유할 수 있도록 스케줄링 정책을 정교하게 튜닝합니다. 워크로드 특성에 맞게 파티션을 분리하고, 작업 우선순위를 관리합니다. 또한 Prometheus, Grafana 등을 Slurm의 어카운팅 데이터와 연동하여 핵심 지표들을 모니터링하고 리소스 할당을 지속적으로 최적화합니다.
클러스터의 안정성과 재현성을 보장하기 위해 Ansible, Terraform과 같은 IaC(Infrastructure as Code) 도구를 사용하여 다양한 설정을 형상관리하며, 대용량 학습 데이터를 위한 Lustre, NFS 등 병렬/네트워크 파일 시스템을 연동합니다.
이러한 클러스터 관리, 모니터링, 장애 복구, 사용자 요청 처리를 위한 자동화 도구를 개발하고 운영합니다.
[모델 성능 및 운영 비용 최적화]
대규모 모델 학습 시 FSDP(Fully Sharded Data Parallel), DeepSpeed와 같은 최신 분산 학습 기술을 도입하여 학습 속도를 가속화합니다. 서빙 시점의 비즈니스 요구사항(e.g., Latency vs. Throughput)에 맞춰 NVIDIA TensorRT, ONNX Runtime 등을 활용한 모델 컴파일을 적용합니다. 또한 INT8/FP16 양자화(Quantization) 등의 경량화 기법을 도입하여 응답 속도를 단축시킵니다.
Triton Inference Server 등을 활용한 동적 배치(Dynamic Batching)로 처리량(Throughput)을 극대화 하며, AWS Inferentia와 같은 고효율 계산 자원을 활용하여 쿼리당 비용을 획기적으로 절감합니다. 성능 프로파일링을 통해 리소스 사용률, P99 Latency, RPS(Requests Per Second) 등의 핵심 지표를 모니터링하고, KEDA(Kubernetes Event-driven Autoscaling) 등을 이용한 효율적인 오토스케일링 정책을 구현하여 비용 대비 성능을 지속적으로 개선합니다.
AWS Inferentia를 통한 추론 최적화에 대한 더 자세한 이야기는 다음 링크에서 참고하실 수 있습니다.
[모바일 기기에서 동작하는 추론 엔진 개발]
TFLite, PyTorch Mobile 등 다양한 프레임워크를 활용해 하이퍼커넥트의 on-device AI 모델이 모바일 환경에서 안정적이고 효율적으로 동작할 수 있도록 추론 엔진 SDK를 연구·개발합니다. 단순히 모델을 변환하는 것을 넘어, 양자화(Quantization), Pruning, SIMD 최적화, GPU/NNAPI 가속 등 최신 기법을 적용하여 지연(latency)을 최소화하고 배터리 및 메모리 사용을 최적화 합니다.
또한 iOS/Android 등 다양한 디바이스 환경에서 일관된 성능을 보장하기 위해 모바일 모델 빌드 및 배포 파이프라인, 테스트 자동화 환경, 프로파일링 및 디버깅을 진행합니다. 이를 통해 연구 단계에서 개발된 모델을 실제 대규모 사용자에게 제공할 수 있는 상용 수준의 모바일 AI 플랫폼을 완성합니다.
이 과정에서 단순 엔지니어링뿐만 아니라, 연구팀과 협업해 모델 구조에 적합한 최적화 전략을 함께 탐색하며, 모델 성능과 사용자 경험 사이에서 균형 잡힌 의사결정을 수행합니다. 결과적으로, 우리가 개발한 모바일 추론 엔진은 리소스가 제한된 환경에서도 끊김 없고 재빠른 응답성으로 좋은 사용자 경험을 보장하며, 글로벌 유저들에게 AI 기반 사용자 경험 혁신을 제공합니다.
[조직 생산성 향상을 위한 엔지니어링]
데이터 수집 및 전처리부터 모델 배포, 모니터링에 이르는 ML 모델의 전체 라이프사이클 전반의 비효율을 개선하고 자동화합니다. 단순히 플랫폼과 도구들을 제공하는 것을 넘어, ML Engineer들의 개발 경험을 정량적으로 측정합니다. 첫 실험까지 걸리는 시간, 또는 모델 배포 리드타임 등 핵심 생산성 지표를 정의하고 모니터링합니다. 이렇게 식별한 병목 지점과 근본 원인을 깊게 분석하고 개선함으로써, ML Engineer들이 인프라 설정이나 디버깅에 시간을 낭비하지 않고 핵심 비즈니스 문제의 해결에만 집중할 수 있는 연구 개발 환경을 조성합니다.
Requirements
Preferred Qualifications
Hiring Process
제출해 주신 내용 중 허위 사실이 있거나 관련법 상 근로제공에 결격사유가 있는 경우 채용이 취소될 수 있으며, 필요시 사전에 안내된 채용 절차 외에도 추가 전형 및 서류 확인이 진행될 수 있습니다.
국가보훈대상자는 관계 법령에 따라 우대하오니, 해당되시는 분께서는 지원 시 고지해주시고 채용 시 증빙서류를 제출해주시기 바랍니다.
하이퍼커넥트가 채용하는 포지션에 지원하는 경우, 개인정보 처리에 관하여서는 본 개인정보처리방침이 적용됩니다: https://career.hyperconnect.com/privacy
#HPCNT
Match Group
23 jobs posted
About the job
Similar Jobs
Discover more opportunities that match your interests
23 days agoSenior Platform Machine Learning Engineer
EarnIn
Mountain View, USView details- 15 days ago
Software Engineer, Machine Learning Platform Engineer (Platform)
Coinbase
RemoteView details - 2 days ago
Senior, Software Engineer (Machine Learning)
Walmart
Sunnyvale, CAView details - 21 days ago
(USA) Senior, Software Engineer (Machine Learning)
Walmart
Sunnyvale, CAView details - 15 days ago
Senior Machine Learning Engineer - GenAI Platform
Databricks
San Francisco, CaliforniaView details - 26 days ago
Senior, Software Engineer - Machine Learning Engineer
Walmart
(USA) Crossman Service Building CA SUNNYVALE Home OfficeView details - 10 days ago
Machine Learning Platform Engineer -
Synthesia
Amsterdam; Europe; Munich; UK; ZurichView details - 2 days ago
Senior Machine Learning Systems Engineer, Ranking Platform
Reddit
RemoteView details - 26 days ago
Senior Software Engineer, Machine Learning Inference
NVIDIA
US, CA, Santa ClaraView details
15 days agoStaff Machine Learning Engineer (Platform)
EarnIn
Mountain View, USView details
View all ML Engineer jobs
Looking for something different?
Browse all AI jobs