私が行っているプロジェクトは、汎用的に使える機械学習モデルを作成し、無料で公開する事を目標としています。
その中でも、特に、日本語を使用する言語モデルやAIを中心に、日々開発を行っています。
例えば、画像認識系のAIでは、ModelZOOというAI群が、様々な研究や製品開発に利用出来るように一般公開されています。
既にAIは、実際の製品に利用される段階に入っており、一般公開されたAIが利用出来るかどうかで、製品開発の競争力や、ひいてはその国の国際競争力が左右されると言っても過言ではありません。
しかしながら、(言語に依存せず)世界で共通して利用出来る画像認識系のAIとは異なり、自然言語処理系のAIでは、その国で話されている言語でAIを新たにトレーニングする必要があります。
日本語はローカルな言語なので、誰か日本人がAIをトレーニングして公開しないと、日本語でのAIは利用出来ず、ひいては日本国の国際競争力が低下するような事態まで招きかねません。
このように、日本語にローカライズされたAIを一般に公開することは、日本のAI研究の進歩に寄与し、ひいては日本国の国際競争力強化に値するプロジェクトなのですが、かかる費用のためより大きなモデルのトレーニングが出来ずにいます。
機械学習プロジェクトでは、モデルの学習のために大量の計算資源が必要になります。
特に、現代的なモデルは、これまでに無い大量のデータを数ヶ月かけて事前学習させる規模のものが多く、個人的な趣味の範囲で作成するにはハードルが高くなっています。
例えば、Google Cloud PlatformでのGPUサーバーの代金は$1267.28 per GPU/ month、TPUサーバーの代金は、$3,285 / month(2020年9月時点)で、GPT-2 large等の大規模モデルの学習には、それを数ヶ月使用する必要があります。自前でGPUマシンを用意しても、電気代などがかかります。
さらに、学習データの収集にも資金が必要です。一例として、BCCWJコーパスは20万円ほどの利用許諾料が必要になります。(このプロジェクトは、大学などの研究室に属さない個人で行っているので、個人利用となり、利用許諾料も高額になります)
コーパス2020はAWSのEC2インスタンス上で5ヶ月かけて収集したデータセットですが、高々20GB程度のデータセットであり、さらに大量のデータを収集している最中です。
当然のことですが、私も人間ですし、生きてゆくためにはお金を稼ぐ必要があります。
今の私の主な収入源は、フリーランスエンジニアとして働くコンサルティング代ですが、3ヶ月契約の委託業務を更新し続けて暮らす状況では、将来の見通しも立てづらく、なかなか長期的なプロジェクトに手を付けることが出来ません。
もしも、自分の研究成果を元に安定的な収入が確保出来れば、さらに長い時間軸を見据えて研究活動が出来るだろう、と思っています。
私はこれまでも、gpt2-japaneseの学習に必要となるサーバー代をcamp-fireのプロジェクトで募集したりと、クラウドファウンディングによる資金調達を行ってきました。
camp-fireのプロジェクトは、2020年8月26日に開始し、9月21日に募集を終了しました。わずか1ヶ月に満たない募集期間でありましたが、25人の支援者と、30万円を超す支援を頂き、とりあえず学習に必要な資金を集めることが出来ました。
そしてさらに、募集期間が終了した後になっても、支援が出来ないかというお問い合わせを複数件頂いています。
全く同じテーマで、クラウドファウンディングのプロジェクトを複数立ち上げるのは違うと思い、しばらくは募集期間内に支援頂いた方に対してのみリターンを提供していましたが、期間を設定せずにスポンサーを募集出来るGitHub Sponsorsでスポンサーを募集することにしました。
クラウドファウンディングによる資金調達と同様に、GitHub Sponsorsによるスポンサーシップにも、リターンを設定しています。
リターンは頂ける金額によって変わります。例としては、月$10のスポンサーシップに対して、リポジトリ及び学習済みモデルファイル内の「special_thunks.txt」内に、支援者への謝辞を載せる事が出来ます。
もっとも高額のスポンサーシップに対しては、モデルの利用方法についての継続的なコンサルティングや、モデルのファインチューニング等を行う事が出来ます。
スポンサー料とリターンの一覧は、こちらに掲載されています。
より詳しい条件や、サポートの内容については、直接ご連絡ください。もっとも、内容によっては、フリーランスエンジニアである私に業務を発注するのと変わらない事になるかもしれません。