Third Intelligenceは、日本発のAGIの確立に挑戦する、AI研究・プロダクト開発企業です。Third Intelligenceが独自に提唱する「遍在型AGI(汎用人工知能)」の確立と個人に寄り添ったその成長を通じて、社会の新たな基盤となるサービスの実現を目指します。
仕事内容
ポジションの意義・背景
遍在型AGIを人間にとって身近な存在にするには、テキストだけでなく、声のトーンや周囲の状況をリアルタイムで理解し、人間らしく応答する能力が必要です。このポジションでは、最も直感的なインターフェースである「音声」を中心に据えた知覚・理解能力の開発に取り組んでいただきます。
業務内容・期待成果
- ユーザーとの自然なやり取りを実現するための、低遅延なEnd-to-Endの音声対話パイプラインの構築
- 音声情報と言語情報を高度に融合させ、音声のコンテキスト(話者の感情、周囲の環境音等)を深く理解するシステムの開発
- 将来的な視覚情報の統合を見据えた、マルチモーダルな表現学習(Embedding)の最適化および検証
- (将来的には、音声信号をテキストに変換せず直接理解し、感情やニュアンスを含めた応答を生成するネイティブ音声モデルの研究開発もお任せしていく可能性があります)
応募資格(必須・歓迎)
【必須】
- 音声対話領域でのAIシステムのEnd-to-End構築経験
- Python, PyTorch, Distributed Training Frameworks (DeepSpeed, FSDPなど) の深い知識
- 音声信号処理、音声認識(ASR)、または音声合成(TTS)などの関連分野における深い専門性と研究・開発経験
- 最新の音声・マルチモーダル関連の論文(Speech-to-Speech, Audio-LLM等)を理解し、自律的に実装・検証できる能力
【歓迎】
- フロンティアモデルの開発・運用実績
- 英語による技術議論およびグローバルな開発体制における業務経験
- 国際的な技術コミュニティでの活動や、英語による高度な技術交渉およびドキュメンテーション能力
- BigTech水準のHPCインフラストラクチャを、最高のパフォーマンスで利用するための最適化能力
- C++/CUDAなどの低レイヤー言語を用いた計算グラフ最適化、またはAIアクセラレータ(ASIC など)に関する専門的な知識
- 大規模言語モデル(LLM)と音声モデルを統合したアーキテクチャの開発経験
- リアルタイム性が要求されるシステムにおける推論エンジンの最適化や低遅延化の実装経験
このポジションの魅力
- 音声を専門とするエンジニアとして、テキスト中心の現在のAIを、聴覚を持つ知能へと進化させる開発の中核を担うことができます。
- 自社で開発したオリジナルかつ高性能な基盤モデルに直接触れつつ、その性能を最大限引き出す責任を持つ立場で働くことができます。
| 職種 / 募集ポジション | Research Engineer - Audio / 音声 |
|---|---|
| 雇用形態 | 正社員 |
| 契約期間 | 期間の定めなし(試用期間 3ヶ月) |
| 給与 |
|
| 勤務地 | 地方からフルリモートOK。 ただし毎週、月曜日・金曜日は出社推奨日、かつ月1回のAllHands出社が必要(交通費支給) |
| 勤務時間 | 専門型裁量労働制またはフルフレックス(所定労働時間 8時間) |
| 休日 | 休日:土・日、祝日、年末年始 等。入社時に特別休暇を3日付与(有効期限半年)、その後6ヶ月勤務後から最低10日〜最大20日の年次有給休暇を付与。ほか特別休暇あり(慶弔休暇、アニバーサリー休暇など) |
| 福利厚生 | Company Deckよりご確認ください。 https://speakerdeck.com/thirdintelligence/third-intelligence-company-deck?slide=19 |
| 加入保険 | 雇用保険・労災保険・健康保険・厚生年金 |
| 受動喫煙対策 | オフィス内禁煙 |
| 会社名 | 株式会社Third Intelligence |
|---|---|
| 代表者 | 代表取締役CEO 石橋 準也 |
| 設立 | 2025年3月27日 |
| 事業内容 | AI研究、AIプロダクト開発 |