1. 株式会社ジーニー
  2. 株式会社ジーニー 採用情報
  3. 株式会社ジーニー の求人一覧
  4. 【JAPAN AI】AI Quality Scientist / Japanese

【JAPAN AI】AI Quality Scientist / Japanese

  • 【JAPAN AI】AI Quality Scientist / Japanese
  • 正社員

株式会社ジーニー の求人一覧

【JAPAN AI】AI Quality Scientist / Japanese | 株式会社ジーニー

JAPAN AI株式会社について

JAPAN AI株式会社は、AI技術を駆使して働く人々の可能性を飛躍的に高めることを目指し、上場企業である株式会社ジーニーのグループ企業として2023年4月に設立されました。当社は最先端のAI技術を活用し、国内外での研究開発を推進しています。

私たちが目指しているのは、単なる AI チャットボットの提供ではありません。企業の全 SaaS を統合し、AI が自律的に業務を実行する「企業の脳」— 次世代の基幹システムを構築することです。「JAPAN AI STUDIO」を中核に、DB さえあればアプリ不要、AI が作業して結果だけを返す世界を実装しています。

私たちはAIの持つ変革力を通じて、新たな価値を創出し、社会全体の進歩に貢献することを目指しています。AIによるイノベーションをリードし、テクノロジーが人々をより多くのことを達成できるようにする未来を共に創造しましょう。

関連URL

募集背景

JAPAN AI STUDIO が「企業の脳」として稟議承認・リソース配置・見込み顧客探索などの業務を自律的に実行する世界では、AI の出力が間違えれば、承認すべきでない稟議が通り、誤った人員配置が行われ、不適切な顧客にアプローチしてしまいます。「企業の脳」が信頼されるためには、生成回答の正確性・安全性・一貫性を科学的に評価・保証する仕組みが不可欠です。

従来の QA エンジニアリングでは、テストケースの設計・実行が中心でした。しかし、LLM エージェントの品質保証には、評価メトリクスそのものの研究開発、LLM-as-Judge の校正理論、報酬モデリング、統計的実験計画、ベンチマーク設計といった ML / DS の専門性が求められます。

海外の先進AI企業が確立しつつある "Evaluation Science" の領域を、日本のエンタープライズ AI の文脈で実践するポジションです。

ミッション

"AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する"

LLM / AI エージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、「AI 評価科学」という新しい研究領域を社内に確立し、約 200 社が本番利用するプロダクトの品質を科学的に保証します。

期待する役割について

AI Quality Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。

  • 評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します
  • 自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します
  • レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します
  • 統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します
  • 評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します
    約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します

このポジションの魅力

  • Evaluation Science の実践 : Apple・Anthropic・Scale AI・Google DeepMind 等が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです
  • ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります
  • 品質がプロダクトの信頼を決める : 約200社が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品質保証がビジネスインパクトに直結する手応えを実感できます
  • 新設ポジション : AI エージェントの品質評価科学という新しい専門領域を、ゼロから設計・構築できます。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、大きな裁量を持って取り組めます
  • AI安全性の最前線 : 自動レッドチーミング、adversarial testing、ポリシー準拠検証など、Responsible AI の実践に携われます。AI エージェントが「企業の脳」として業務を自律実行する世界で、安全性を科学的に保証する役割を担います
  • 急成長環境 : 設立3年で200名以上の規模、9プロダクト展開のスタートアップで、技術的意思決定に大きな裁量を持てます。Research Engineer や Agent Harness Engineer と密接に連携し、プロダクト全体の品質に影響を与えるポジションです

業務内容

  • 評価メトリクスの研究開発
    • LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
    • 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
    • 報酬モデリング / preference learning の評価への応用研究
    • 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
    • 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
  • 自動評価パイプラインの設計・構築
    • スケーラブルな自動評価パイプラインの設計・実装
    • CI/CD への評価パイプライン組込みと品質ゲートの構築
    • エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
    • 評価パイプラインの再現性・信頼性の担保
  • 安全性・品質検証
    • 自動レッドチーミング (automated adversarial testing) の研究・実装
    • 安全性 / ポリシー準拠の検証フレームワーク構築
    • ハルシネーション検出・校正手法の研究・実装
    • プロンプト / ツール回帰テストの設計・実行
  • 統計分析・実験設計
    • 統計的実験計画 (A/B テスト、有意差検定) の設計・分析
    • 品質トレンドの可視化・回帰検出の自動化
    • 品質レポート作成と改善提案
    • 評価シグナルの研究・開発チームへのフィードバック

業務シナリオ ※以下は想定される業務シナリオの例です

シナリオ1: LLM-as-Judge の校正と妥当性検証
新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。

シナリオ2: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。

シナリオ3: 自動レッドチーミングによる安全性検証
金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率99%以上を達成します。

成果責任 (KR/メトリクス)

  • 評価カバレッジ率(テストケース網羅率)
  • 回帰検出率(リリース前の品質劣化検出率 ≥ 95%)
  • 評価パイプライン実行時間(CI/CD内で完了)
  • LLM-as-Judge と人間評価の一致率
  • False Positive / Negative 率
  • 安全性インシデント発生率(リリース後)

チーム体制

約120名が開発組織に在籍しています。 
AI Quality Scientistは品質保証の専門チームとして、以下のチームと密接に連携します:

  • 密接に連携する役割:
    • Agentic Product Engineer — エージェント機能開発
    • Research Engineer — 研究開発・モデル改善
    • Agent Harness Engineer / Software Engineer (AI Platform) — AI 実行基盤開発
    • Product Manager — プロダクト設計・品質要件定義

必須条件

  • コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
  • MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
  • LLM / 生成AIの評価手法に関する深い知識
  • 統計学・実験計画法の実践的知識
  • Pythonでの ML / 評価パイプライン構築経験
  • 機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
  • 評価メトリクスの設計・実装経験
  • 言語レベル : いずれか必須
    • 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
    • 英語 : ビジネスレベル

歓迎条件

  • ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
  • 報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
  • LLM-as-Judge の校正・rubric設計の経験
  • AI安全性・Responsible AI・レッドチーミングに関する知識・経験
  • ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
  • マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
  • 大規模データ処理(Spark / BigQuery等)の経験
  • CI/CDパイプラインへのML/評価パイプライン組込み経験
  • 論文読解・再現実装の能力
  • 英語での技術コミュニケーション能力

開発環境

  • 言語 : Python (評価パイプライン・分析), TypeScript / React / Next.js (フロントエンド部) / NX
  • 評価 / QA : pytest, LangSmith, Weights & Biases, custom eval frameworks
  • データ : BigQuery, Spark, Pandas
  • インフラ : GCP (コンテナ / K8s), Docker, Terraform
  • CI/CD : GitHub Actions
  • ツール : Slack, Confluence, Linear, Google Workspace, GitHub, Notion
  • AI 開発支援 : Claude Code MAX Plan, Cursor, ChatGPT, Devin
  • 作業環境 : Mac (Apple Silicon), デュアルモニタ対応

学習と開発の支援

  • AIツール利用サポート
    • JAPAN AI SaaS サービス, Cursor, ChatGPT, ClaudeなどAIツール全般を会社負担で利用可能
  • 開発ツール支援
    • 利用したい開発ツールが有償である場合、その費用を負担 (年3万円まで)
  • 書籍購入補助
    • 技術書など学習のために利用する書籍を会社費用で購入可能 (半期3万円まで)
  • 語学学習 / 資格取得支援
    • 日本語や英語の学習プログラムや資格の取得を会社費用で利用可能
  • リフレッシュ手当
    • ご自身のリフレッシュのために使用するサービスの費用を負担 (月5000円まで)
    • e.g. ジム, ヨガ, 整体、水族館、映画, テーマパークのチケットなど各種適用可能
  • 家賃手当
    • 該当エリアにお住いの方に家賃手当を支給 (月3万円まで)

働き方

ハイブリッド勤務 : 週3出社、週2リモート
フレキシブルな勤務時間帯 : コアタイムは要相談
柔軟性 : 将来的により柔軟なワークスタイルの検討も可能

選考フロー

書類選考 → コーディングテスト → 面接(4~5回)→ 内定
※最終面接までにリファレンスチェックをご対応いただきます

職種 / 募集ポジション 【JAPAN AI】AI Quality Scientist / Japanese
雇用形態 正社員
給与
年収
月給:¥571,429~1,142,857
∟基本給:¥410,915~¥821,830
∟固定残業手当 (45時間分) : ¥160,514~¥321,027
∟SO付与制度あり

※45時間を超える時間外手当は別途支給
※昇給機会年2回(4月、10月)、賞与年2回(5月、11月)
※給与は経験・能力・前職経験によりご相談に応じます。
勤務地
  • 163-6006  東京都新宿区西新宿住友不動産新宿オークタワー 5/6階
    地図で確認
 
会社情報
会社名 株式会社ジーニー
事業内容
・広告プラットフォーム事業
・マーケティングSaaS事業
・デジタルPR事業
設立年月日
2010年4月14日
代表者
代表取締役社長 工藤 智昭
資本金
100百万円(連結、2025年3月末現在)
従業員数
877名(連結、2025年3月末現在)
本社所在地
東京都新宿区西新宿6-8-1 住友不動産新宿オークタワー5/6階
就業時間
10:00~19:00
※土日祝は休業日となります
※出向の場合は、出向先の規程に準じます
福利厚生
【待遇・福利厚生】
<正社員>
・書籍購入補助(半期 30,000円まで)
・リフレッシュ手当(毎月 5,000円まで)
・部活動手当(毎月5,000円まで)
・家賃手当(当社指定の駅を対象とし毎月30,000円まで)
・シャッフルランチ/ディナー(四半期に一度ランチ1,000円まで、ディナー5,000円まで)
・資格取得支援制度、英語学習支援制度(業務に必要な場合のみ)
・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日)
・定期健康診断(年1回)
・従業員持株会

<契約社員>
・書籍購入補助(半期 30,000円まで)
・リフレッシュ手当(毎月 5,000円まで)
・部活動手当(毎月5,000円まで)
・シャッフルランチ/ディナー(四半期に一度ランチ1,000円まで、ディナー5,000円まで)
・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日)
・定期健康診断(年1回)

【保険】
・社会保険完備

【諸手当】
・交通費全額支給
代表プロフィール
早稲田大学大学院卒業後、株式会社リクルート(現 株式会社リクルートホールディングス)へ入社。2010年4月株式会社ジーニーを創業、代表取締役社長に就任。2023年4月には戦略的AIカンパニーJAPAN AI株式会社を設立し、同社の代表取締役社長を兼任している。
企業成長ランキング
■ Financial Times社発表のアジア成長企業ランキング2020を受賞
Financial Times社とStatista社が、アジア太平洋地域12カ国5,000万以上の企業を対象に実施した調査で、飛躍的活躍を遂げた企業500社に選出されました。
休日休暇
完全週休二日制
所定休日:土・日・祝日
休暇:年次有給休暇、夏季休暇(3日)、年末年始休暇(12月31日〜1月3日)、慶弔休暇
グループ会社
CATS株式会社(日本)
JAPAN AI株式会社(日本)
ソーシャルワイヤー株式会社(日本)
Geniee International Pte., Ltd.(シンガポール)
Geniee Vietnam Co., Ltd.(ベトナム)
PT. Geniee Technology Indonesia(インドネシア)
PT. Adstars Media Pariwara(インドネシア)
Geniee US Inc.(米国)
Geniee Software India Pvt. Ltd.(インド)
GENIEE ADTECH – FZCO(UAE)
備考
・試用期間
 正社員/契約社員:1か月

・受動喫煙対策
 敷地内禁煙(屋外に喫煙場所設置)

・従事すべき業務の変更の範囲
 会社の定める業務

・就業の場所の変更の範囲
 会社の定める場所

・有期労働契約を更新する場合の基準に関する事項(通算契約期間又は更新回数の上限を含む)
 更新の上限なし