ChatStream®
LLMサービング・ソリューション

商用サービス向け LLM サービング・ソリューション
当社では、商用サービス向け、LLM サービング・ソリューション "ChatStream®"(チャットストリーム)を開発・提供しています。
LLMの進化に伴い、企業内業務に特化して「領域特化型」「ドメイン特化型」といった専用LLMへの高いニーズと、それにともなう情報の安全性が求められております。
当社のChatStreamはこうした特化型のLLMをホストできる LLM 分散推論サーバー(ChatStream® Server)です。
独自アルゴリズムによるGPUサーバー負荷分散により柔軟スケールアウトが可能であり貴社独自LLMへの大量アクセスに対して安定した性能を実現いたします。
またチャットUI(ChatStream® UI)も当社でフルスクラッチ開発をしておりますので、安心の品質と高いカスタマイズ性を有しています。
Llama4 や Mistral などオープンで高性能な LLM を活用しチャットをはじめとした多彩な商用 LLM アプリケーションをローコード、短納期で構築することが可能です。
(オープン LLM だけでなく Open AI 社のチャットGPTシリーズ、Anthropic社Claudeなど商用 LLM APIとの連携もサポートしております)
また、日本人エンジニアが開発しているため、日本語の言語処理(プロンプト・ハンドリングや、検索機能など)に高度に対応しています。
特長
- ノーコード/ローコードで本格的 LLM アプリケーションを構築可能です
- 独自LLM、オープンソースLLMに幅広く対応
- 高いサービング能力をもつ独自に開発したスケールアウト技術により多ユーザー同時アクセス、高負荷環境に柔軟に対応
- 高度なUXを実現したチャットインタフェースを標準搭載。要件に応じた柔軟なカスタマイズであらゆるドメインの業務に対応可能
仕様
Python:Python 3.11, Pytorch 2.~ 環境で動作
対応GPU:NVIDIA CUDA 11.7~搭載GPU
チャットUI:マルチタスク対応WebチャットUIを標準搭載。Web、スマホ対応。各種カスタム可。レスポンスの再生成やリクエストの再編集など会話ツリーの柔軟な変更オペレーションにも対応。
マルチGPU負荷分散:対応
→データ並列:データ並列による分散LLMサービング
マルチノード負荷分散:マルチノードによるクラスタリング負荷分散に対応
→モデル並列:テンソル並列(PagedAttention, Megatron LLM)、クラスタリングによる大型モデルのサービング
→大型モデルのスケールアウト:モデル並列したクラスターセット(ChatStream® Pool)によるさらなるスケールアウト
セキュリティ:ASNフィルタリング、IPフィルタリング、TLS3.0、CSRFプロテクション、他
応用機能:マルチタスク、OAuthユーザー認証、他
実行環境:Qualiteg GPUクラウド(当社GPU環境)、AWS、Azure、GCP、オンプレミス(当社にて別途 GPU調達、HPCクラスター構築サービス有)、LLM API接続※