転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です
部署・役職名 | 【サイバーエージェント】ソフトウェアエンジニア(機械学習基盤)|GPU Kubernetesクラスタ開発・運用など |
---|---|
職種 | |
業種 | |
勤務地 | |
仕事内容 |
■部署紹介 CIUは、当社グループ全体のインフラを支える組織です。 Cycloud というブランドでプライベートクラウドを展開しており、OpenStack (IaaS)、AKE (KaaS)、ML Platform (機械学習基盤) など様々なサービスを提供しています。 ■仕事内容 機械学習基盤 ML Platformの開発・運用を行い、社内のAI系技術者やプロダクトの開発効率化・速度向上・コスト削減を支援しています。 ML PlatformではGPUインスタンスの払い出し、機械学習ジョブの実行、機械学習モデルのデプロイといった機能を提供しています。 今後はこれらの他にもMLOpsを推進するための機能を開発していく予定です。またこれらのサービスは基本的にKubernetes上のアプリケーションとして作られており、基礎的な機械学習の知識に加えてKubernetesに対する深い知識も必要になります。 当社は技術選定が自由であるため、ユーザーとなる社内プロダクトがパブリッククラウドを使うかCycloudを使うかは自由です。その中でCycloudのML Platformを選択してもらうために、ユーザーの求めるUXや機能を備えたサービスを作るのが我々のミッションです。 具体的な仕事内容は下記になります。 1. 大規模なGPU Kubernetes クラスタの開発、運用 - 物理GPU ノードのセットアップ(OS インストールやパラメーターチューニング) - Kubernetes クラスタの構築・運用 - 定期的な Kubernetes クラスタのバージョンアップデート - Kubernetes の最新バージョンに対するキャッチアップ - 大規模計算クラスタのための技術検証・導入(NVIDIA H100, RoCEv2/RDMA, NCCL など) 2. AI 系の開発を支援する機械学習サービスの開発、運用 - GPU インスタンスや Jupyter Notebook を払い出すサービスの開発 - 各種機械学習フレームワークを用いたジョブシステムの開発(Pytorch/Tensorflow/etc.) - 機械学習モデルのサーバーレスデプロイシステムの開発 - 機械学習のためのノード間分散ジョブシステムの開発(MPI) - Kubernetes カスタムコントローラー(Go)の開発 - Kubeflow などの機械学習系エコシステムの検証・導入・コントリビュート 3. ML Platform の規模拡大 - 新規・既存社内ユーザーとの積極的なコミュニケーションや折衝 - ユーザーサポート(Python の学習スクリプトの調査など) - AI 系技術や最新 GPU に対するキャッチアップ - GPU リソースの需要調査や増設に向けた選定・導入 |
労働条件 |
【勤務地】 東京都 【給与・報酬】 応相談 ※年俸制 ※経験・能力を考慮の上、当社規定により優遇します。 ※半期ごとの目標管理制度を導入しており、評価に応じて年俸を見直します。 ※選考の中で最終的なスキル・経験を加味した後、正社員・契約社員どちらかでの採用となります。 【就業時間】 10時~19時(職種によっては裁量労働制適用) 【休暇・休日】 ■完全週休2日制(土曜・日曜) ■祝日 ■夏期休暇(3日間) ■年末年始休暇(12月29日~1月3日) ■年次有給休暇(初年度10日間) ■慶弔休暇 ■産前産後休暇 ■育児休暇 ■リフレッシュ休暇(勤続2年間で5日間) など 【待遇・福利厚生】 ■給与改定(年2回) ■各種社会保険完備 ■通勤手当 ■家賃補助制度 ■従業員持株会 ■慶弔見舞金制度 ■社内親睦会費補助制度 ■各種活性化制度 ※新規事業創出プロジェクト ■キャリアチャレンジ制度 ■部活動支援制度 など 【受動喫煙防止情報】 屋内受動喫煙対策: あり 対策: 喫煙室あり 特記事項: 喫煙専用室設置 |
応募資格 |
【必須(MUST)】 以下全てを満たす経験をお持ちの方 - 計算機科学に対する基本的な知識および理解 - 機械学習や GPU に対する基本的な知識および理解 - Linux 環境における開発および運用経験 - Kubernetes などのコンテナオーケストレーションツールを用いた運用経験 - プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい) 【歓迎(WANT)】 以下の経験・知識を一つでもお持ちの方 - Kubernetes カスタムコントローラーの開発経験 - Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA) - 最新の機械学習やフレームワークに対する知識および理解 - HPC を目的とした大規模計算クラスタに対する知識および理解 - MLOps の知識・実践経験 - Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験) - Web API におけるセキュリティ対策の経験 - パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験 - フロント(React)の開発経験 - OSS コミュニティでの開発経験 【求める人物像】 ・ソフトウェアからインフラまで幅広く興味があるエンジニアの方 ・向上心が高く、新しい技術の習得に対して抵抗がない方 ・良好なコミュニケーション能力により、チーム内や他部署と調整可能な方 ・サービス、ユーザー中心で物事を考えられる方 ・クラウドネイティブ技術に親和性のある方 ・OSS のアップストリームを追従・貢献する気持ちのある方 |
アピールポイント | 自社サービス・製品あり 日系グローバル企業 ベンチャー企業 女性管理職実績あり 20代管理職実績あり 上場企業 従業員数1000人以上 シェアトップクラス 2年連続売り上げ10%以上UP 年間休日120日以上 産休・育休取得実績あり 社内ベンチャー制度あり 教育・研修制度充実 資格支援制度充実 Uターン・Iターン歓迎 完全土日休み |
リモートワーク | 可 「可」と表示されている場合でも、「在宅に限る」「一定期間のみ」など、条件は求人によって異なります |
受動喫煙対策 | 喫煙室設置 |
更新日 | 2024/10/24 |
求人番号 | 2332007 |
採用企業情報
転職・求人情報の詳細をご覧になる場合は会員登録(無料)が必要です