XアーカイブをCodexで分析すると、ここまで見える

XアーカイブをCodexで分析すると、ここまで見える

自分の X(旧Twitter)アカウントのアーカイブをダウンロードして、Codex と一緒に分析してみた。
結論から言うと、これはかなり面白い。

単なる「昔のツイートを読み返す」ではなく、

  • 投稿の時系列的な変化
  • いいね・DM・フォロー・広告ログまで含めた行動の全体像
  • 公開アカウントとしての自己ブランディング
  • 就活・身バレ・誤読リスクの棚卸し

のようなところまで、かなり具体的に掘れる。

しかも今回は、アーカイブを展開したあとに Codex に読ませながら、

  • データ構造の把握
  • 解析スクリプトの作成
  • レポート生成
  • 追加観点の洗い出し

まで一気に進められた。
「自分の過去ログを、自分で再読する」のではなく、手元のアーカイブを材料に、自分専用の分析環境を立ち上げる感覚に近い。

このリポジトリで実際にやっていること

今回の分析元は 77_twitter_archive_data というディレクトリ。
ここには X からダウンロードしたアーカイブ一式を展開してある。

このリポジトリを確認すると、アーカイブは単なるツイート一覧ではない。

  • data/*.js に構造化データが 83 データセット
  • data/tweets.js に投稿本体
  • data/like.js にいいね履歴
  • data/direct-messages.js などに DM
  • data/follower.js / data/following.js に関係データ
  • data/ad-*.js 系に広告インプレッションやエンゲージメント
  • data/*_media/ に画像などの実体ファイル

という構成になっている。

さらに重要なのは、data/*.js が純粋な JSON ではなく、window.YTD.* = ... という JavaScript 形式になっていること。
このままだと雑に読みづらいので、今回のリポジトリではそこを Python でパースしている。

実際の処理は主に次の 2 本。

1. 定量分析

scripts/analyze_archive.py

このスクリプトでは、アーカイブ全体を横断して以下をまとめている。

  • 投稿数、年別・月別・曜日別・時間帯別の推移
  • 返信率、自己返信率、URL付き投稿率、メディア率
  • クライアント別の投稿傾向
  • いいね件数やリンク先ドメインの傾向
  • DM 件数や送受信比率
  • フォロー / フォロワーのスナップショット
  • セキュリティ系・広告系ログの存在確認

出力先:

  • analysis/archive-analysis-summary.json
  • docs/archive-analysis-report.md

2. 定性分析とリスク監査

scripts/analyze_qualitative.py

こちらでは、ツイート本文を全件スクリーニングして、

  • 発信キャラの変遷
  • コミュニティ志向、学習志向、自虐、ユーモアなどの傾向
  • 個人情報露出
  • 就活で不利になりそうな表現
  • 暴力・性的・誤読リスクのある語彙

をルールベースで抽出している。

出力先:

  • analysis/qualitative-analysis-summary.json
  • docs/qualitative-analysis-report.md
  • docs/risk-review-candidates.md

つまりこのリポジトリは、X アーカイブを置いて終わりではなく、Codex と一緒に「分析用の道具」と「読めるレポート」を作った状態になっている。

実行はシンプルで、たとえばこんな形で回せる。

python3 scripts/analyze_archive.py
python3 scripts/analyze_qualitative.py

実際にどんなことが見えたか

今回のレポジトリでは、たとえば次のようなことが見えている。

  • ツイート総数は 17,945
  • いいねは 30,349
  • 返信は 10,526 件で、かなり会話中心の運用
  • 活動のピークは 2022年2023年
  • DM は 1対1 会話 145 件、総メッセージ 3,484
  • 広告インプレッションも 2,991 件残っている

ここで面白いのは、単純な「よくツイートしていた時期」が分かるだけではないこと。

  • どの時期に会話中心だったか
  • どの時期に成果報告型に変わったか
  • どの話題や言い回しが今の自分のブランドとズレているか
  • 削除優先度の高い投稿がどこにあるか

のように、行動ログとしての過去公開アカウントとしての現在を比較できる。

特に、docs/qualitative-analysis-report.md のような「人格傾向」「誤読リスク」「今後の運用提案」まで含むレポートは、人力だけでやるとかなりしんどい。
Codex に読ませながら進めると、分析観点の設計とレポートの叩き台作成がかなり速い。

こう進めるのがおすすめ

もし同じことをやるなら、流れはこんな感じがやりやすい。

1. まずは X アーカイブをダウンロードする

X のアーカイブには、ツイート本文だけでなく、いいね、DM、プロフィール変更、広告ログなどが含まれる。
まずはアーカイブを取得して、専用のローカルディレクトリに展開する。

2. 公開用の作業場所と分ける

この種のデータには個人情報や非公開寄りの情報が大量に含まれる。
なので、分析用のディレクトリは 必ず private 前提 で扱ったほうがいい。

おすすめは、

  • アーカイブ展開用ディレクトリ
  • 解析スクリプト用ディレクトリ
  • 公開記事用ディレクトリ

を分けること。

3. 最初に Codex に「棚卸し」をやらせる

最初から「面白い分析して」と投げるより、先に全体構造を把握させるのが効く。

やることの順番は、

  1. どんなファイルがあるか一覧化する
  2. 何が JSON で、何が JS ラッパーか確認する
  3. 件数の大きいデータを特定する
  4. 先に書ける定量分析レポートを作る
  5. そのあとで定性分析や削除監査に進む

が安定する。

4. レポート生成まで自動化する

「分析して終わり」だと再利用しづらい。
スクリプトを作って、

  • JSON サマリ
  • Markdown レポート
  • リスク候補一覧

まで吐けるようにしておくと、あとでプロンプトを変えて何度でも掘り直せる。

Codex に投げるときのおすすめプロンプト

以下は、今回の作業を踏まえて「最初に入れると進めやすい」と感じた指示。

1. まず全体像を掴ませるプロンプト

このディレクトリは X のアーカイブを展開したものです。
まず data 配下の構造を棚卸しして、どのデータセットが何を表しているか整理してください。
特に、件数の多いファイル、メディアディレクトリ、JSON ではなく JS ラッパーになっているファイル形式に注意してください。
そのうえで、次にやるべき分析テーマを優先順位つきで提案してください。

2. 定量分析用のプロンプト

data/tweets.js, like.js, follower.js, following.js, direct-messages.js などを使って、
このアーカイブの定量分析スクリプトを作ってください。
出力は Markdown レポートと JSON サマリの両方にしてください。
知りたいのは、投稿数の推移、曜日・時間帯、返信率、クライアント、いいね傾向、DM 利用状況、フォロー関係の概要です。

3. 定性分析・自己分析用のプロンプト

data/tweets.js を全件対象にして、発信スタイルの変遷、コミュニティ内での役回り、学習志向、ユーモア、自虐傾向などを定性的に分析してください。
断定的な人格診断ではなく、公開投稿から推測できる傾向としてレポートを書いてください。
時期ごとの差分も整理してください。

4. リスク監査用のプロンプト

就活リスク、個人情報露出、誤読されやすい表現、ブランド毀損につながる投稿を広めに抽出してください。
まずは false positive を許容して候補を広めに出し、あとで人間が絞り込める形にしてください。
出力は、severity、日付、URL、理由、本文要約つきの Markdown 一覧にしてください。

5. 記事化まで持っていくプロンプト

この分析結果をもとに、X アーカイブを Codex で分析すると何ができるかを紹介する技術記事を書いてください。
読者は、アーカイブは持っているが何から始めればいいか分からない人です。
記事には、できること、進め方、注意点、おすすめプロンプトを含めてください。

やってみて分かった良さ

今回いちばん良かったのは、Codex が「集計器」だけでなく「分析の相棒」になることだった。

人間がやるべきなのは、

  • 何を知りたいか決める
  • どこまで公開してよいか決める
  • 最終判断をする

一方、Codex には、

  • データ構造の把握
  • パーサの実装
  • 集計の自動化
  • レポートの叩き台作成
  • 追加分析観点の提案

を任せられる。

特に自分のログ分析は、対象への土地勘が人間側にあり、でも件数が多すぎて手で読むのはしんどい、という意味で LLM とかなり相性がいい。

注意点

  • X アーカイブにはセンシティブなデータが大量に含まれる
  • DM、位置情報、生活圏、連絡先、広告ログなどは取り扱い注意
  • 分析用のリポジトリは private 前提で扱う
  • 削除候補の抽出は自動化できても、最終判断は必ず人間が行う
  • LLM の定性分析は「傾向の要約」として使い、断定的な人格評価にしない

このあたりを守れば、かなり安全に、しかもかなり面白く掘れる。

おわりに

X アーカイブのダウンロード機能って、正直かなり地味に見える。
でも実際には、数年分の発言・反応・関心・つながりのログがまとまった、かなり強い個人データ資産になっている。

そこに Codex を組み合わせると、

  • 自分史の定量分析
  • 公開アカウントの棚卸し
  • 黒歴史・リスクの監査
  • 今後の発信方針の設計

までつなげられる。

「自分のアーカイブ、落として終わり」になっているなら、かなりもったいない。
一度、専用ディレクトリに展開して、Codex にちゃんと読ませてみると面白いです。

Hugo で構築されています。
テーマ StackJimmy によって設計されています。