YouTube 用語集
YouTube・動画要約・クリエイター分析にまつわる基本用語を SumTube の視点で整理。
チャプター
長尺動画をテーマごとに分割し、各セクションの冒頭にタイムスタンプを付けたもの。視聴者は目次から目的の箇所に一発でジャンプできる。
トランスクリプト
動画の音声を時刻付きで書き起こしたテキストデータ。手動字幕と自動生成字幕の 2 種類がある。
字幕
動画下部に表示される文字情報。聴覚情報を補うアクセシビリティ機能であり、AI 要約の基礎データとしても不可欠。
自動生成字幕
YouTube が音声認識で自動生成する字幕。多くの動画でデフォルトで利用可能だが精度は手動字幕より劣る。
クローズドキャプション (CC)
表示/非表示を視聴者が切り替えられる字幕。話者識別や音響情報 (拍手・音楽) も含まれるアクセシビリティ特化の字幕形式。
SRT 字幕
字幕ファイルの代表的な形式。シンプルなタイムコード + テキスト構造で、編集ソフトや外部ツールで広く扱える。
WebVTT 字幕
HTML5 ビデオのための W3C 字幕標準。SRT より表現力が高く、YouTube のウェブ配信でも使われる。
視聴時間
動画が視聴された合計時間。YouTube アルゴリズムの主要な最適化指標で、創作者にとって最重要の KPI の 1 つ。
タイムスタンプ
動画内の特定時刻を表す表記。`1:23` のように書き、コメント欄・説明欄ではクリック可能なリンクとして機能する。
説明欄タイムスタンプ
動画説明欄に並べたタイムスタンプ群。先頭が `0:00` なら YouTube が自動でチャプターとして認識する。
視聴維持率
動画のどの時点まで視聴者が留まっているかを表すグラフ。離脱ポイントの特定と改善の基礎データ。
視聴維持率カーブ
動画の経過時間に対する視聴者残存率の折れ線グラフ。急な落ち込みは離脱ポイント、緩やかな減衰は健全な視聴態度を表す。
ショート動画
最大 60 秒の縦長動画フォーマット。TikTok 対抗として 2020 年に登場し、専用のフィードを持つ。
ショートフィード
YouTube アプリのホーム画面からアクセスする、上下スワイプ式の短尺動画リコメンドストリーム。
プレイリスト
同じテーマや連続コンテンツをまとめた動画のリスト。順序付きで自動再生され、シリーズ視聴を滑らかにする。
プレミア公開
アップロード済みの動画を指定時刻に一斉配信する機能。チャット付きで、ライブ感のあるローンチ体験を作れる。
ライブ配信
リアルタイムで配信される動画。配信終了後にアーカイブ化され、通常の動画と同じく字幕も付く。
スーパーチャット
ライブ配信で視聴者が有料でコメントを目立たせる機能。配信者の主要な収益源の 1 つ。
収益化
チャンネルが広告・メンバーシップ・Super Chat 等から収益を得られる状態。YouTube パートナープログラム参加が前提。
ミッドロール広告
動画の途中に挿入される広告。8 分以上の動画で配置でき、視聴体験を損なわない場所に自動/手動で挟める。
スポンサー読み
動画内で創作者がスポンサーの商品を直接宣伝する区間。通常 30〜 90 秒で、スキップしたい視聴者が多い。
終了画面
動画の最後 5〜 20 秒に、次の動画やチャンネル登録ボタンを重ねて表示する機能。視聴者の次アクションを誘導する。
カード
動画再生中に右上に表示される小さなアクションカード。動画・プレイリスト・アンケート等を非侵入的に提示する。
サムネイル
動画の表紙画像。クリック率に直結する最重要資産で、プロの創作者は 1 本に数時間かける。
クリック率 (CTR)
動画のサムネが表示された回数に対し、実際にクリックされた割合。2〜 5% が一般的なベンチマーク。
インプレッション
動画サムネが視聴者の画面に表示された回数。再生数の上流指標で、チャンネルのリーチを測る基礎データ。
チャンネル登録者
そのチャンネルの新着動画を通知・推薦で優先的に受け取るユーザー。依然重要だが近年はウエイトが低下。
あとで見る
視聴者が後で見たい動画をブックマーク保存する公式機能。自動生成プレイリストとして振る舞う。
コミュニティ投稿
動画以外の形式 (テキスト・画像・アンケート) で視聴者と交流するためのチャンネル内投稿。
メンバーシップ限定
月額支払いのメンバーのみが視聴/閲覧できる動画・投稿。サブスク型の安定収益モデル。
再生速度
動画を 0.25 倍〜 2 倍で再生する機能。1.5 倍や 2 倍での学習用途が一般的になっている。
B ロール
メインの話者映像に被せる補足的な映像素材。説明を視覚的に補強する編集技法。
プロンプトキャッシング
LLM に渡すプロンプトの共通部分をキャッシュし、2 回目以降の推論コストと遅延を大幅に下げる機能。
コンテキストウィンドウ
LLM が 1 回のリクエストで扱える入力 + 出力トークンの上限。2026 年現在、200K〜 2M トークンが主流。
トークン
LLM が入出力を扱う最小単位。英語で約 4 文字、日本語で約 1〜 2 文字が 1 トークンに相当する。
推論コスト
LLM に 1 回の要約を依頼するときに発生するトークン課金。入力 / 出力で単価が異なる。
ストリーミングレスポンス
LLM の出力を逐次サーバーから送り返す配信方式。完成を待たずに画面に描画でき、体感 TTFT を劇的に短くできる。
ハルシネーション
LLM が根拠のない情報を自信を持って生成する現象。要約サービスでは特に警戒すべき品質リスク。
一行要約
動画全体を 1 文で表す要約形式。SumTube の 3 層要約の最上位レイヤーで、判断コストを最小化する。
キーポイント
動画の 3〜 7 個の重要ポイントを箇条書きで抽出した要約レイヤー。読み飛ばし可能な情報密度。
AI 要約
大規模言語モデルを用いて人手介入なしに生成される要約。品質は入力 (字幕) と指示文 (プロンプト) に強く依存する。
セマンティック検索
キーワードの一致ではなく意味の類似度で結果を返す検索方式。埋め込みベクトルを用いる。