安全性設定

Gemini API には、プロトタイピングの段階で調整できる安全性の設定が用意されています。これにより、アプリケーションに対してより厳しいまたは緩い安全性の構成が必要かどうかを判断できます。これらの設定は、特定の種類のコンテンツを制限または許可するように 4 つのフィルタカテゴリにわたって調整できます。

このガイドでは、Gemini API が安全性の設定とフィルタリングを処理する方法と、アプリケーションの安全性の設定を変更する方法について説明します。

安全フィルタ

Gemini API の調整可能な安全フィルタは、次のカテゴリを対象としています。

カテゴリ	説明
嫌がらせ	アイデンティティや保護対象属性をターゲットとする否定的または有害なコメント。
ヘイトスピーチ	粗暴、無礼、または冒とく的なコンテンツ。
露骨な性表現	性行為やわいせつな内容に関する情報が含まれるコンテンツ
危険	悪質な行為を助長する、手助けする、または仕向けるコンテンツ。

これらのカテゴリは HarmCategory で定義されています。これらのフィルタを使用して、ユースケースに適切なコンテンツとなるように調整できます。たとえば、ビデオゲームのセリフを作成する場合、ゲームの性質上、「危険」として評価されたコンテンツをより多く許容することを問題ないとみなす場合があります。

Gemini API には、調整可能な安全フィルタに加えて、児童を危険にさらすようなコンテンツなど、重大な有害性に対する保護機能が組み込まれています。このような有害なコンテンツは常にブロックされ、調整することはできません。

コンテンツの安全フィルタリングレベル

Gemini API は、コンテンツが安全でない可能性のレベルを HIGH、MEDIUM、LOW、NEGLIGIBLE として分類します。

Gemini API は、重大度ではなく、コンテンツが安全でない確率に基づいてコンテンツをブロックします。コンテンツによっては、危害の重大度が高くても、安全でない確率が低くなるものもあるため、この点を考慮することが重要です。たとえば、次の文を比較します。

ロボットが私をパンチした。
ロボットが私を切り付けた。

安全でない確率は最初の文章の方が高くなりますが、2 つめの文章は暴力の観点で重大度が高いとみなすことができます。したがって、エンドユーザーへの悪影響を最小限に抑えながら主要なユースケースをサポートするために必要となる、適切なレベルのブロックを慎重にテストし、検討することが重要です。

リクエストごとの安全フィルタリング

API に対して行うリクエストごとに安全性設定を調整できます。リクエストを行うと、コンテンツが分析され、安全性評価が割り当てられます。安全性評価には、カテゴリと有害として分類される確率が含まれます。たとえば、コンテンツが「嫌がらせ」カテゴリに対して高い確率で安全でなかったためにブロックされた場合、返される安全性評価のカテゴリは HARASSMENT になり、有害である確率が HIGH に設定されます。

モデルの安全性が高いため、追加のフィルタはデフォルトでオフになっています。有効にすると、安全でない可能性に基づいてコンテンツをブロックするようにシステムを構成できます。デフォルトのモデルの動作はほとんどのユースケースに対応しているため、これらの設定はアプリケーションで一貫して必要とされる場合にのみ調整してください。

次の表に、カテゴリごとに調整できるブロック設定を示します。たとえば、「ヘイトスピーチ」カテゴリのブロック設定を [少量をブロック] に設定した場合、ヘイトスピーチコンテンツである確率が高いものはすべてブロックされます。その確率の低いものは許可されます。

しきい値（Google AI Studio）	しきい値（API）	説明
オフ	`OFF`	安全フィルタをオフにする
ブロックなし	`BLOCK_NONE`	安全でないコンテンツの確率に関係なく、常に表示されます
少量をブロック	`BLOCK_ONLY_HIGH`	安全でないコンテンツである確率が高い場合にブロックします
一部をブロック	`BLOCK_MEDIUM_AND_ABOVE`	安全でないコンテンツの確率が中程度または高い場合にブロックします
ほとんどをブロック	`BLOCK_LOW_AND_ABOVE`	安全でないコンテンツの確率が低い、中程度、高い場合にブロックします
なし	`HARM_BLOCK_THRESHOLD_UNSPECIFIED`	しきい値が指定されていません。デフォルトのしきい値を使用してブロックします

しきい値が設定されていない場合、Gemini 2.5 モデルと Gemini 3 モデルのデフォルトのブロックしきい値は [オフ] です。

これらの設定は、生成サービスに対するリクエストごとに設定できます。詳しくは、HarmBlockThreshold API リファレンスをご覧ください。

安全性に関するフィードバック

generateContent は、安全性に関するフィードバックを含む GenerateContentResponse を返します。

プロンプトのフィードバックは promptFeedback に含まれています。promptFeedback.blockReason が設定されている場合、プロンプトのコンテンツはブロックされています。

レスポンス候補のフィードバックは、Candidate.finishReason と Candidate.safetyRatings に含まれます。レスポンスコンテンツがブロックされ、finishReason が SAFETY の場合は、safetyRatings で詳細を確認できます。ブロックされたコンテンツは返されません。