INFOR
MATION

中小企業 DXに非エンジニアが挑戦|バイブコーディングで音声文字起こしを自動化

〜音声メモの文字起こし・要約をAIで自動化してみた〜

 

中小企業でのDXというと、「大きなシステムを導入する」「専門のIT部門を作る」「高額なツールを契約する」といったイメージを持たれる方も多いかもしれません。

しかし、実際の業務現場では、もっと身近なところにDXの種があります。

たとえば、コロナも落ち着き、最近は対面での営業活動や会議/MTGが増えてきた印象です。

そんな時、Web会議での録画/自動文字起こしに慣れてしまった身からすると、対面MTGだと

下記の様な悩みを抱えていました。

  • 打合せ中のメモ作成に必死になり会議の内容に集中できない
  • 打合せ内容をSFAなどに履歴入力や議事録作成するのが手間

 

最近では音声録音し自動で議事録作成するAIツールもあり、私もいくつ試してみましたが、録音端末を別途購入しなければならず、

議事録作成も従量課金で意外にコストがかさむ印象でした。

何かかゆい所に手が届く様に出来ないかと考えた時に、「作ってしまえばいいんだ!」と思い立ち、

今流行りのバイブコーディングをしてみたというのが、今日のお話です。


なぜこのツールを作ろうと思ったのか

最初に私の立場をご説明すると、社内では経営企画及び営業を担当しており、

ITエンジニアとしての経歴は一切ございません。

いわゆる、非エンジニアです。

その為日々の業務において、商談、情報交換、社内打合せ、エンジニアとのMTGなど、日々さまざまな会話が発生します。

その中で、打合せ内容を活動履歴として残す作業は非常に重要なのです。

ただ、これまでは次のような流れで対応していました。

  1. スマホのボイスメモで録音する
  2. 音声を文字起こしする
  3. 文字起こし内容をChatGPTに貼り付ける
  4. 活動履歴用に要約してもらう
  5. 結果をファイルとして保存する

一つひとつは大きな作業ではありません。

しかし、件数が増えると意外と時間がかかります。

特に、営業活動や情報交換の機会が多い場合、「記録を残すこと」は重要である一方で、毎回同じような手順を繰り返すことに負担を感じていました。

そこで今回は、この作業を小さく自動化することにしました。


今回作った仕組み

今回作った仕組みは、非常にシンプルです。

音声ファイルをOneDriveの指定フォルダに保存すると、Pythonで作成したツールがその音声を処理し、OpenAI APIを使って文字起こしと要約を行います。

全体の流れは以下の通りです。

  1. iPhoneのボイスメモで録音
  2. 音声ファイルをOneDriveの 01_input_audio に保存
  3. Pythonツールを実行
  4. OpenAI APIで音声を文字起こし
  5. 文字起こし全文を 02_transcripts に保存
  6. 活動履歴形式で要約
  7. 要約結果を 03_summaries に保存
  8. 処理済み音声を 04_processed_audio に移動

初期版では、まず手動実行モードとして python main.py run-once を使い、短い音声で動作確認を行いました。

今後は、監視モードを使うことで、OneDriveに音声ファイルを置いたタイミングで自動処理する運用も可能になります。


OneDriveを使った理由

今回、保存先にはアルファ・リンクで日常的に利用しているOneDriveを使いました。

新しいクラウドサービスを導入するのではなく、すでに社内で使っている環境を活用することで、初期導入のハードルを下げるためです。

今回のフォルダ構成は以下のようにしました。

AI文字起こし
├── 01_input_audio
├── 02_transcripts
├── 03_summaries
├── 04_processed_audio
└── error

それぞれの役割は以下の通りです。

  • 01_input_audio:音声ファイルを入れる場所
  • 02_transcripts:文字起こし全文を保存する場所
  • 03_summaries:要約結果を保存する場所
  • 04_processed_audio:処理済み音声を移動する場所
  • error:エラー時の確認用フォルダ

このようにフォルダの役割を明確にすることで、非エンジニアでも運用しやすい形にしています。


なぜCodexを使ったのか

最近は、AIを使った開発支援ツールとしてClaude Codeなども注目されています。

もちろん、Claude Codeも非常に有力な選択肢です。

一方で、今回の目的は、OpenAI APIを使って音声の文字起こしと要約を行うツールを作ることでした。

そのため、今回は同じOpenAIのエコシステムであるCodexを使うことで、API連携やプロンプト設計の流れを一貫して確認しやすいと考えました。

今回の取り組みでは、Codexに対して自然言語で要件を伝えました。

たとえば、

  • OneDriveのどのフォルダを監視するか
  • 文字起こし結果をどこに保存するか
  • 要約をどのような形式にするか
  • APIキーを安全に管理するにはどうするか
  • READMEを非エンジニアにも分かるように整備すること

といった内容を指示し、MVP(「実用できる最小限の試作品)を作成しました。

ここで重要なのは、最初から完璧なシステムを作ろうとしなかったことです。

まずは「短い音声を処理できること」をゴールにし、小さく作って動作確認する方針にしました。


非エンジニアでも進められた理由

今回の取り組みでは、高度なプログラミング知識そのものよりも、業務フローを整理することが重要でした。

具体的には、

  • どんな業務を自動化したいのか
  • 入力となるファイルは何か
  • 出力として何が必要か
  • どのフォルダに保存すれば運用しやすいか
  • 初期版ではどこまで実現すればよいか

を整理することが出発点でした。

いわゆる「バイブコーディング」に近い形で、やりたいことを自然言語でAIに伝えながら開発を進めました。

ただし、完全にAIへ丸投げしたわけではありません。

APIキーの扱い、個人情報の管理、録音データの保存先、エラー時の対応など、業務利用に必要な観点も確認しながら進めています。

このように、現場の業務を理解している人が、AIとエンジニア的な考え方を組み合わせることで、小さな社内DXは十分に進められると感じました。


実際につまずいたポイント

今回の開発では、スムーズに進んだ部分だけでなく、いくつかつまずいたポイントもありました。

Python環境の準備

まず、Windows環境でPythonを実行できるようにするところでつまずきました。

最初は python --version を実行してもPythonが認識されず、インストールやPATH設定、PowerShellでの実行確認が必要でした。

また、仮想環境を有効化する際には、PowerShellの実行ポリシーによりスクリプト実行がブロックされました。

この問題は、一時的に実行ポリシーを変更することで対応しました。

ChatGPTに都度、エラー状況を貼り付けアドバイスを仰ぎながら進められたので、特段大きな負担は感じませんでした。

APIキーの管理

OpenAI APIを利用するにはAPIキーが必要です。

今回、APIキーをターミナルに直接貼ってしまう場面がありました。

APIキーは第三者に知られると不正利用される可能性があるため、すぐに無効化し、新しいAPIキーを発行しました。

最終的には、.env ファイルにAPIキーを保存し、コードやREADMEには直接書かない運用にしました。

この点は、エンジニア職の方からするとあり得ない行動かもしれませんが、この様なセキュリティ意識を高めていく事は

AI活用や社内DXを進めるうえで非常に重要だと感じました。

最初は短い音声でテスト

いきなり長時間の打合せ音声を使うと、エラーが出たときに原因の切り分けが難しくなります。

そのため、初回は30秒から1分程度の短い音声でテストしました。

小さく試して、動作を確認してから実業務に広げる。

この進め方は、バイブコーディングでも非常に重要だと考えています。


MVPで実現できたこと

今回の初期版では、以下を実現できました。

  • OneDriveの指定フォルダに音声ファイルを配置
  • Pythonツールで音声ファイルを処理
  • OpenAI APIで文字起こし
  • 文字起こし全文をテキストファイルとして保存
  • 活動履歴形式で要約
  • 要約結果をMarkdownファイルとして保存
  • 処理済み音声ファイルを別フォルダへ移動
  • READMEに初期設定・実行方法・注意点を整理

まずはMVPとして、日常業務で使える最小構成まで確認できました。

今後は、要約フォーマットの改善や、より長い音声での検証、監視モードでの自動処理、Google Driveや他の業務システムとの連携も検討していきます。


なぜ最初から完璧を目指さなかったのか

今回、最初から大きな仕組みを作ることは避けました。

たとえば、最初からクラウド上で完全自動化したり、Google Driveやkintone、CRMへ直接連携したりすることも技術的には考えられます。

しかし、初期段階で重要なのは、まず本当に業務で使えるかを確認することです。

そのため、今回は既存のOneDrive同期フォルダを活用し、まずは手動実行で文字起こしと要約ができるところまでを目標にしました。

DXは、最初から完璧なシステムを作ることが目的ではありません。

現場の課題を整理し、小さく試し、使いながら改善していくことが大切です。


DXに必要なのは「現場起点」

今回の取り組みを通じて改めて感じたのは、DXは技術から始めるものではなく、現場の課題から始めるものだということです。

「この作業、毎回少し面倒だな」

「ここが自動化できたら、もっと本来の仕事に時間を使えるのではないか」

そうした小さな気づきが、社内DXの入口になります。

AIやクラウドサービス、ローコード、ノーコード、開発支援AIなどの選択肢は増えています。

しかし、どのツールを使うかよりも先に、何を改善したいのかを整理することが重要です。

今回の音声文字起こし・要約ツールも、出発点は「活動履歴作成の手間を減らしたい」という非常に身近な課題でした。


アルファ・リンクのDX支援について

アルファ・リンクでは、今回のように現場の「ちょっと面倒」を起点に、AI・クラウド・ローコードを活用した業務改善を支援しています。

私たちは、DXを単なるツール導入とは考えていません。

現場の業務を理解し、課題を整理し、まずは小さく試し、実際に使える形にしていくことが大切だと考えています。

今回の取り組みは、アルファ・リンク自身の社内DX実践記録でもあります。

自分たちで試し、つまずき、改善した経験を、お客様のDX支援にも活かしていきます。

社内DX、AI業務効率化、ChatGPTの業務活用、音声文字起こしの自動化、M365やOneDriveを活用した業務改善などに関心がある方は、ぜひお気軽にご相談ください。


今後について

今回の第一弾では、音声ファイルをOneDriveに保存し、OpenAI APIを使って文字起こしと要約を行うMVPを作成しました。

今後は、以下のような改善にも取り組んでいく予定です。

  • 要約テンプレートの精度向上
  • 5分〜10分程度の実業務音声での検証
  • OneDriveフォルダ監視による自動処理
  • Google Driveへの対応
  • kintoneやCRMへの活動履歴登録
  • TeamsやLINE など社内チャットとの連携

今後も、アルファ・リンクの社内DX実践記録として、取り組みの過程を発信していきます。