1. サイバーエージェントグループ
  2. サイバーエージェントグループ 採用情報
  3. サイバーエージェントグループ の求人一覧
  4. 【AI Lab 強化学習チーム】全学年対象インターンシップ

【AI Lab 強化学習チーム】全学年対象インターンシップ

  • 日本語LLMのための日本のポップカルチャーデータセットの構築及びその手法の開発
  • インターン

サイバーエージェントグループ の求人一覧

【AI Lab 強化学習チーム】全学年対象インターンシップ | サイバーエージェントグループ

インターンシップ概要

株式会社サイバーエージェント AI事業本部 AI Lab 強化学習チームでの全学年対象インターンシップになります。本インターンでは日本語LLMのための日本のポップカルチャーデータセットの構築及びその手法の開発を行っていただきます。詳細な業務内容・条件は下記していますのでご確認ください。

本インターンの意義

日本語LLMであれば、日本の近代文学や日本史に詳しいだけでなく、現代の日本のポップカルチャーにも詳しいLLMであってほしくはありませんか?

そのような日本語LLMを構築するためには、まずはそれを評価するベンチマークを作る必要があります。本アルバイトで構築していただくデータセットは日本語LLMの開発において日本のポップカルチャーの理解度を評価するために利用したいと思っています。

対象

  • 必須
    • Python 3を使ったプログラミング経験がある方
    • 言語処理技術に興味がある方
    • LLMに対するプロンプトを書いた経験のある方
  • あると望ましい
    • 日本のアニメやゲームなどに興味がある方
    • 自然言語のデータセットを構築した経験のある方

業務内容

私たちのチームでは大規模言語モデル (LLM) を目的に合わせてチューニングするための技術 (Reinforcement Learning from Human Feedbackなど)を研究開発しております[1, 2, 3]。
特に、日本語に堪能なだけでなく日本の環境に立脚した知識を持ったLLMを構築する手法に興味を持っています[2]。
そしてそのためには、高品質なデータセットを効率よく構築する手法が重要となります。

日本ポップカルチャーデータセットの構築

本インターンに参加される方はAI Labの研究員とディスカッションをしながら日本ポップカルチャーデータセットを構築するための手法の実装や開発を行っていただきます。
データセットはWikipediaなどのCreative commonsや、GFDLで公開されているアニメに関する記事を利用して構築することを想定しています。

References

[1] Direct Preference Optimizationによる日本語LLMのチューニング

[2] Yuu Jinnai. 2024. Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models?. In Proceedings of the 2nd Workshop on Cross-Cultural Considerations in NLP (Best Paper Award)

[3]Tetsuro Morimura and Mitsuki Sakamoto and Yuu Jinnai and Kenshi Abe and Kaito Ariu. 2024. Filtered Direct Preference Optimization. ICML 2024 Workshop on Models of Human Feedback for AI Alignment.

職種 / 募集ポジション 日本語LLMのための日本のポップカルチャーデータセットの構築及びその手法の開発
雇用形態 インターン
契約期間
週2日以上の勤務となります。
給与
時給
※ご本人のこれまでの開発実績、インターンシップへの参加条件などを考慮した上で報酬額を決定いたします
勤務地
  • 150-6121  東京都渋谷区渋谷2丁目24番12号 渋谷スクランブルスクエア 22F
    地図で確認
 
福利厚生
・交通費全額支給
・業務用PC貸与
・その他、社員と同様の社内福利厚生制度が一部利用可能。社内イベント等にもご参加いただけます。
選考フロー
書類選考→オンライン面接(2回程度)→合否連絡
会社情報
会社名 サイバーエージェントグループ
本社所在地
〒150-0042
東京都渋谷区宇田川町40番1号 Abema Towers
Tel:03-5459-0202(代表)  Fax:03-5459-0222
代表者
代表取締役社長 藤田 晋
設立
1998年3月18日
事業内容
メディア事業
インターネット広告事業
ゲーム事業
投資育成事業