大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム【CADC2023】(15:00~15:50)

大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム【CADC2023】(15:00~15:50)

質問や感想は公式サイトの各セッションページのチャット欄から投稿してください。セッション終了後、ライブ配信で登壇者がお答えします!
セッションに限らず、関連する質問や登壇者に関する質問などもお待ちしております!

【タイムテーブル】
15:00-15:40: セッション
15:40-15:50: LIVEコンテンツ(QA・当日だけのアーカイブ無しのここだけの話)

【公式サイト】
https://cadc.cyberagent.co.jp/2023/sessions/distributed-ml-with-kubernetes

【スライド】
https://speakerdeck.com/cyberagentdevelopers/distributed-ml-with-kubernetes/

【登壇者】
漆田 瑞樹
Twitter: zuiurs
GitHub: zuiurs

【概要】
CyberAgent group Infrastructure Unit(CIU)では、機械学習を用いた開発における課題を解決するためにML Platformという社内向け機械学習基盤を開発しています。この基盤では日々様々なタスクが実行されており、その中でも画像生成・自然言語処理モデルのサイズは年々大きくなっています。また、モデルのパラメーター数も指数関数的に増加しており、それに伴い大規模な計算リソースが不可欠になっています。本セッションでは大規模なGPUクラスタを実現するためのアーキテクチャや、分散学習をKubernetesで実行するためのエコシステムについて紹介いたします。

【アンケート】
今後より良いカンファレンスを創るために Apple製品が当たるアンケートを開催中です。
ぜひこのセッションに対するご意見やご感想をお待ちしております。
https://docs.google.com/forms/d/e/1FAIpQLSfWweaEfOSCpm38UsZUPLnqxr-SzzNNbfoZrkG2cE8XUAdjNA/viewform?usp=pp_url&entry.1643469405=%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%81%AA%E5%88%86%E6%95%A3%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B+NVIDIA+H100+Kubernetes+%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%81%A8%E3%81%9D%E3%81%AE%E3%82%A8%E3%82%B3%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0
(CADC2023は、独立した技術カンファレンスであり、Apple Inc.が認定、後援、その他承認したものではありません。)

【技術情報、SNS】
・Developers Blog
https://developers.cyberagent.co.jp/blog/

・Twitter

・Connpass
https://cyberagent.connpass.com/

【採用情報】
サイバーエージェントでは、新卒・キャリア(中途)採用を募集しています。
・新卒エンジニア採用、インターンシップ情報
https://www.cyberagent.co.jp/careers/students/tech/

・キャリア採用(カジュアル面談)
https://forms.gle/vtbqbixAWsL1VEe4A

・技術イベント
https://cyberagent.connpass.com/

・会社説明資料「CyPitch」

#CADC2023 #Kubernetes #MachineLearning