XアーカイブをCodexで分析すると、ここまで見える
自分の X(旧Twitter)アカウントのアーカイブをダウンロードして、Codex と一緒に分析してみた。
結論から言うと、これはかなり面白い。
単なる「昔のツイートを読み返す」ではなく、
- 投稿の時系列的な変化
- いいね・DM・フォロー・広告ログまで含めた行動の全体像
- 公開アカウントとしての自己ブランディング
- 就活・身バレ・誤読リスクの棚卸し
のようなところまで、かなり具体的に掘れる。
しかも今回は、アーカイブを展開したあとに Codex に読ませながら、
- データ構造の把握
- 解析スクリプトの作成
- レポート生成
- 追加観点の洗い出し
まで一気に進められた。
「自分の過去ログを、自分で再読する」のではなく、手元のアーカイブを材料に、自分専用の分析環境を立ち上げる感覚に近い。
このリポジトリで実際にやっていること
今回の分析元は 77_twitter_archive_data というディレクトリ。
ここには X からダウンロードしたアーカイブ一式を展開してある。
このリポジトリを確認すると、アーカイブは単なるツイート一覧ではない。
data/*.jsに構造化データが 83 データセットdata/tweets.jsに投稿本体data/like.jsにいいね履歴data/direct-messages.jsなどに DMdata/follower.js/data/following.jsに関係データdata/ad-*.js系に広告インプレッションやエンゲージメントdata/*_media/に画像などの実体ファイル
という構成になっている。
さらに重要なのは、data/*.js が純粋な JSON ではなく、window.YTD.* = ... という JavaScript 形式になっていること。
このままだと雑に読みづらいので、今回のリポジトリではそこを Python でパースしている。
実際の処理は主に次の 2 本。
1. 定量分析
scripts/analyze_archive.py
このスクリプトでは、アーカイブ全体を横断して以下をまとめている。
- 投稿数、年別・月別・曜日別・時間帯別の推移
- 返信率、自己返信率、URL付き投稿率、メディア率
- クライアント別の投稿傾向
- いいね件数やリンク先ドメインの傾向
- DM 件数や送受信比率
- フォロー / フォロワーのスナップショット
- セキュリティ系・広告系ログの存在確認
出力先:
analysis/archive-analysis-summary.jsondocs/archive-analysis-report.md
2. 定性分析とリスク監査
scripts/analyze_qualitative.py
こちらでは、ツイート本文を全件スクリーニングして、
- 発信キャラの変遷
- コミュニティ志向、学習志向、自虐、ユーモアなどの傾向
- 個人情報露出
- 就活で不利になりそうな表現
- 暴力・性的・誤読リスクのある語彙
をルールベースで抽出している。
出力先:
analysis/qualitative-analysis-summary.jsondocs/qualitative-analysis-report.mddocs/risk-review-candidates.md
つまりこのリポジトリは、X アーカイブを置いて終わりではなく、Codex と一緒に「分析用の道具」と「読めるレポート」を作った状態になっている。
実行はシンプルで、たとえばこんな形で回せる。
python3 scripts/analyze_archive.py
python3 scripts/analyze_qualitative.py
実際にどんなことが見えたか
今回のレポジトリでは、たとえば次のようなことが見えている。
- ツイート総数は
17,945件 - いいねは
30,349件 - 返信は
10,526件で、かなり会話中心の運用 - 活動のピークは
2022年と2023年 - DM は 1対1 会話
145件、総メッセージ3,484件 - 広告インプレッションも
2,991件残っている
ここで面白いのは、単純な「よくツイートしていた時期」が分かるだけではないこと。
- どの時期に会話中心だったか
- どの時期に成果報告型に変わったか
- どの話題や言い回しが今の自分のブランドとズレているか
- 削除優先度の高い投稿がどこにあるか
のように、行動ログとしての過去と公開アカウントとしての現在を比較できる。
特に、docs/qualitative-analysis-report.md のような「人格傾向」「誤読リスク」「今後の運用提案」まで含むレポートは、人力だけでやるとかなりしんどい。
Codex に読ませながら進めると、分析観点の設計とレポートの叩き台作成がかなり速い。
こう進めるのがおすすめ
もし同じことをやるなら、流れはこんな感じがやりやすい。
1. まずは X アーカイブをダウンロードする
X のアーカイブには、ツイート本文だけでなく、いいね、DM、プロフィール変更、広告ログなどが含まれる。
まずはアーカイブを取得して、専用のローカルディレクトリに展開する。
2. 公開用の作業場所と分ける
この種のデータには個人情報や非公開寄りの情報が大量に含まれる。
なので、分析用のディレクトリは 必ず private 前提 で扱ったほうがいい。
おすすめは、
- アーカイブ展開用ディレクトリ
- 解析スクリプト用ディレクトリ
- 公開記事用ディレクトリ
を分けること。
3. 最初に Codex に「棚卸し」をやらせる
最初から「面白い分析して」と投げるより、先に全体構造を把握させるのが効く。
やることの順番は、
- どんなファイルがあるか一覧化する
- 何が JSON で、何が JS ラッパーか確認する
- 件数の大きいデータを特定する
- 先に書ける定量分析レポートを作る
- そのあとで定性分析や削除監査に進む
が安定する。
4. レポート生成まで自動化する
「分析して終わり」だと再利用しづらい。
スクリプトを作って、
- JSON サマリ
- Markdown レポート
- リスク候補一覧
まで吐けるようにしておくと、あとでプロンプトを変えて何度でも掘り直せる。
Codex に投げるときのおすすめプロンプト
以下は、今回の作業を踏まえて「最初に入れると進めやすい」と感じた指示。
1. まず全体像を掴ませるプロンプト
このディレクトリは X のアーカイブを展開したものです。
まず data 配下の構造を棚卸しして、どのデータセットが何を表しているか整理してください。
特に、件数の多いファイル、メディアディレクトリ、JSON ではなく JS ラッパーになっているファイル形式に注意してください。
そのうえで、次にやるべき分析テーマを優先順位つきで提案してください。
2. 定量分析用のプロンプト
data/tweets.js, like.js, follower.js, following.js, direct-messages.js などを使って、
このアーカイブの定量分析スクリプトを作ってください。
出力は Markdown レポートと JSON サマリの両方にしてください。
知りたいのは、投稿数の推移、曜日・時間帯、返信率、クライアント、いいね傾向、DM 利用状況、フォロー関係の概要です。
3. 定性分析・自己分析用のプロンプト
data/tweets.js を全件対象にして、発信スタイルの変遷、コミュニティ内での役回り、学習志向、ユーモア、自虐傾向などを定性的に分析してください。
断定的な人格診断ではなく、公開投稿から推測できる傾向としてレポートを書いてください。
時期ごとの差分も整理してください。
4. リスク監査用のプロンプト
就活リスク、個人情報露出、誤読されやすい表現、ブランド毀損につながる投稿を広めに抽出してください。
まずは false positive を許容して候補を広めに出し、あとで人間が絞り込める形にしてください。
出力は、severity、日付、URL、理由、本文要約つきの Markdown 一覧にしてください。
5. 記事化まで持っていくプロンプト
この分析結果をもとに、X アーカイブを Codex で分析すると何ができるかを紹介する技術記事を書いてください。
読者は、アーカイブは持っているが何から始めればいいか分からない人です。
記事には、できること、進め方、注意点、おすすめプロンプトを含めてください。
やってみて分かった良さ
今回いちばん良かったのは、Codex が「集計器」だけでなく「分析の相棒」になることだった。
人間がやるべきなのは、
- 何を知りたいか決める
- どこまで公開してよいか決める
- 最終判断をする
一方、Codex には、
- データ構造の把握
- パーサの実装
- 集計の自動化
- レポートの叩き台作成
- 追加分析観点の提案
を任せられる。
特に自分のログ分析は、対象への土地勘が人間側にあり、でも件数が多すぎて手で読むのはしんどい、という意味で LLM とかなり相性がいい。
注意点
- X アーカイブにはセンシティブなデータが大量に含まれる
- DM、位置情報、生活圏、連絡先、広告ログなどは取り扱い注意
- 分析用のリポジトリは private 前提で扱う
- 削除候補の抽出は自動化できても、最終判断は必ず人間が行う
- LLM の定性分析は「傾向の要約」として使い、断定的な人格評価にしない
このあたりを守れば、かなり安全に、しかもかなり面白く掘れる。
おわりに
X アーカイブのダウンロード機能って、正直かなり地味に見える。
でも実際には、数年分の発言・反応・関心・つながりのログがまとまった、かなり強い個人データ資産になっている。
そこに Codex を組み合わせると、
- 自分史の定量分析
- 公開アカウントの棚卸し
- 黒歴史・リスクの監査
- 今後の発信方針の設計
までつなげられる。
「自分のアーカイブ、落として終わり」になっているなら、かなりもったいない。
一度、専用ディレクトリに展開して、Codex にちゃんと読ませてみると面白いです。