採用背景

■ベネッセでは、各事業（『進研ゼミ』『こどもちゃれんじ』『学校向け教育事業』『社会人向け教育事業』『妊娠出産･育児等の生活サービス』etc.の事業領域)のデータを活用し、お客様の課題解決、サービス価値向上実現のため、事業・サービスやマーケティングの進化、事業グロースにおけるデータ利活用を支える、機械学習やAIを活用したサービスや仕組み作りに注力しております。

■本求人はAI/AIエージェント関連プロジェクトにおいて、品質基準の設計、評価運用、改善サイクルの定着をリードするポジションです。個別案件への対応に加え、評価観点やリリース判定の考え方を横断的に整備し、AI活用を担う開発組織全体の水準向上に貢献いただくことを期待します。

仕事内容

生成AI/AIエージェントの品質基準・評価設計・継続改善を担う技術リードいただきます。

【具体的な業務内容】
■担当するAI/AIエージェントプロジェクトや主要ユースケースについて、品質基準とリリース判定基準を定義。
■新規機能の品質評価、回帰評価、安全性評価の観点で、評価データセット、評価基準、自動評価ロジック、テスト環境を設計・運用。
■オフライン評価と人手レビューを組み合わせ、回答品質、根拠性、一貫性、安全性、コスト、レイテンシの観点で品質を可視化。
■本番環境のオンライン指標、ログ、ユーザーフィードバックをもとに、改善仮説の立案から検証までをリード。
■段階リリース、A/Bテスト、切り戻しや代替動作の判断に必要な品質信号を整備する
Prompt、RAG、tool use、workflow 設計の改善提案を行い、Applied AI Engineering 担当と協働して品質改善。
■共通の評価基盤、ダッシュボード、品質運用フローについて AI Platform & Reliability 担当と連携し、再利用可能な仕組みに落とし込む。
■品質事故や評価結果を踏まえた再発防止策をドキュメント化し、組織の判断基準を育てる

【入社後の成果イメージ】
■6か月以内に、BenesseのAI/AIエージェント活用プロジェクトを対象に、評価・品質の基本となる観点、進め方、評価運用の型を整備し、具体的な案件で活用を始めている。主要なプロジェクトにおいて、品質観点、評価項目、リリース判断の考え方が言語化され、関係者が共通の前提で議論できる状態をつくる。
■18か月以内に、開発組織への知見展開と標準化をリードし、AIソリューションの評価・品質観点におけるベストプラクティスが複数プロジェクトで再利用され、再現性の高いプロジェクト運営ができる状態を実現している。案件ごとの属人的な判断に依存せず、評価設計、改善サイクル、リリース判断の進め方が組織知として定着。

※外部パートナー（大手クラウドベンダーやベンチャー企業など）、研究機関と連携しながら、知見を高めていくことができます。また資格研修やセミナー参加なども推奨しています。
AIエンジニアとしての専門性を高めつつ、BizDevやデータエンジニアなど、領域を拡大するキャリアの広げ方も可能です。

求める人物像

■Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineerなどの基礎技術領域で成果を出したうえで、近年は生成AI/AIエージェント領域に取り組んできた方
■Research Engineer、ML Engineer、Applied AI Engineer、AI Quality/QA、MLOps などの経験を持ちつつ、実運用の品質改善までやり切ってきた方
■「精度を上げる」だけでなく、「どの品質をどう測り、どこでリリース判定するか」を設計してきた方
■生成AIの不確実性を前提に、再現可能な改善サイクルと組織的な判断基準を作れる方
■教育・学習のように信頼性が重要な文脈で、業務ドメインの知見を技術設計に翻訳できる方

応募条件（MUST）

■ソフトウェアエンジニアリング、データ基盤、ML、Security、Platform、Backend のいずれかの領域で、5年以上の実務経験
■Tech Lead またはそれに準ずる立場で、技術方針の決定や実装推進を担った経験
■LLM、RAG、AIエージェントを活用した機能またはシステムについて1年以上の実務経験があり、本番導入または継続運用に関わった案件経験
■評価指標設計、評価データセット設計、または回帰評価設計を含む品質改善サイクルを設計・運用した案件経験
■オフライン評価、オンライン指標、A/Bテスト、モニタリング、人手レビューまたは自動評価を組み合わせて品質を運用した経験
■品質課題を分解し、Prompt、RAG、モデル選定、tool use、UX、運用フローのどこを改善すべきかを判断し、改善につなげた経験
■Pythonを中心とした実装力、ならびにAPI/バックエンド/データ処理のいずれかの実務経験
■PdM・企画担当者、エンジニア、業務側メンバーと協働し、品質基準を意思決定に接続した経験

歓迎条件（WANT）

■Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineer などの基礎技術領域で、専門性を磨いてきた経験
■情報理工学系または関連分野での学士号、またはそれに準ずる基礎知識
■教育、学習、B2C/B2B SaaS、ヘルスケア、法務、金融など高信頼領域でのAI運用経験
Ragas、DeepEval、OpenAI Evals、Langfuse、Arize Phoenix など評価・観測ツールの利用経験
■敵対的テスト、レッドチーミング、プロンプトインジェクション対策、ハルシネーション対策の実務経験
■検索品質、RAG評価、ランキング評価、推薦評価の経験
■ファインチューニング、追加学習、またはモデルカスタマイズの経験
■品質基盤やMLOps基盤の設計経験
■技術発信、社内標準化、プレイブック作成の経験

選考スケジュール

書類選考 → WEBテスト＋面接2回

職種 / 募集ポジション	Senior Tech Lead - AI Quality & Evaluation
雇用形態	正社員
給与	年収月収＋賞与（年2回） ※経験・スキルを考慮し、当社規定により支給 ●諸手当：通勤手当、時間外手当／裁量労働手当、カフェテリアプラン ●退職金制度あり
勤務地	163-0415 東京都新宿区西新宿新宿三井ビル地図で確認在宅勤務と出社を組み合わせたハイブリット勤務となります。 ※本求人部署に関しまして全社横断でPJTに関わる機会が多く、基本的には出社がベースとなります。 ※個別事情による相談は可能です。
勤務時間	9:30～17:30、スーパーフレックス制／裁量労働制 ※1日の所定労働時間：7時間
休日	土日祝、夏期休暇（6/1～9/30の間で連続して3日）、年末年始(12/30～1/4）、リスキル休暇、他
福利厚生	■カフェテリアプラン：自らのライフプランや必要性に合わせ、複数のメニューから選んで申請が可能です（住宅補助／出産・育児/子どもの教育・療育／介護／医療・健康増進／財産形成／ボランティア活動費補助など）。 ■従業員持ち株会、確定給付年金、確定拠出型年金、定期健康診断
加入保険	健康保険、厚生年金保険、雇用保険、労災保険等
受動喫煙対策	屋内全面禁煙
能力開発支援	・セルフラーニング用プラットフォーム（Udemy Business）の利用・能力開発ポイント（外部研修・通信教育・各種資格試験などに対して、会社が費用をサポート）・DX資格取得支援制度・公募制度、青紙制度

会社情報
会社名	株式会社ベネッセコーポレーション

応募する

Senior Tech Lead - AI Quality & Evaluation