ココンの情報をいつでも、どこでも。ココントコ。

エンジニア 2019.08.23

危険すぎると話題の文章生成モデル「GPT-2」で会社紹介文を生成してみました

ココングループのAI TOKYO LABの細川です。
AI、特にディープラーニング系のホットな技術を実際に動かすという内容を中心に不定期にお届けできればと思っています。

概要

OpenAIは、2019年8月20日にテキスト生成モデルGPT-2の新たなモデルを公開しました。
GPT-2はTransformerをベースとしたテキスト生成モデルです。 ソーシャルブックマークサイト Redditにおいて、ユーザの評価が高い文章中のリンクから800万のウェブページを人手で取捨選択したものをデータセットとして使用していることで、様々な文章を生成することができます。
GPT-2は2019年2月に公開されましたが,”あまりにも高度な文章が作成できる”という判断から、開発された4つのモデルを全て公開せず、2月、5月、8月と段階的に大きなモデルを公開してきました。
今回ご紹介するのは,8月20日に公開された3つ目のモデルです。

OpenAI: https://openai.com/blog/better-language-models/#fn1
GIGAZINEの記事: https://gigazine.net/news/20190821-openai-releases-gpt-2-language-model

実行方法

ソースコードは、https://github.com/openai/gpt-2に公開されています。Dockerfileが公開されているので、Dockerさえインストールされていれば簡単に実行できます。初期モデルの114MであればCPU版でも数秒で結果を取得できますが、最新モデルの774では数分から数十分かかります。今回はGPU版で進めていきます。Dockerはインストールされている想定です。

 

 

これだけで準備は完了です. このリポジトリでは,0から文章を生成する src/generate_unconditional_samples.py と、標準入力から文章を入力しその続きの文章を生成する src/interactive_conditional_samples.py の2つのスクリプトが用意されています。
Dockerでは以下の様に実行できます。

 

 

上記では、「SAMPLE 1」までの出力を載せていますが,デフォルトの設定では「SAMPLE 8」までのに8つの文章が生成されます。また、デフォルトでは初期モデルの114Mが使われています。

<|endoftext|>

時々生成文に’<|endoftext|>‘という文字列が表われることがあります。
これは文章の末尾を表すトークンで、この後は別の文章が続くことを示しています。

文章の続きを生成

次に「src/interactive_conditional_samples.py」を使って文章の初めを指定した生成を試します。
例として弊社の会社紹介の一文,

 

AI TOKYO LABは、AIに代表される新技術と、小売業を中心とした豊富な実績を活用し、様々な分野における業務課題の抜本解決と、新しい価値の創出に貢献します。

 

これの英語版ページの

 

Using a powerful combination of cutting edge AI and our experience in obtaining the very best performance in retail, AI TOKYO LAB creates unique solutions for every market, dedicated to building new value no matter where we are employed.

 

という文章の続きを生成させてみます。

 

 

実行するとModel prompt >>>というところで止まります。ここに任意の文章を入力します。

 

 

筆者の環境では20秒ほどで出力されました。
これをGoogle翻訳にかけてみます。

 

Mululelt(DeepMind)およびプレイヤーの支払者と一緒に実際のアクションを実行します。さて、厳密にはPLDAではありませんが、倫理、製品の回復力、継続的な改善があなたの販売を所有し、あなたの見た目を共有するために必要であると信じています。スタートアップ。これらの決定された利点を超えて、進化するニーズを満たすためにAIの世界は成熟しましたが、今日、Fareza Rajによって可能になったチームの新しい革新的な才能を紹介します。 「業界大手のユニークなAIのプレミアムソース」ケンブリッジ、マサチューセッツ、アメリカ
HandOO(タックルロボットのユーティリティエンドポイント)は、HYUNDOOのプラットフォームとコンサルティングを12年以上提供してきました。 2012年に参加したときに、個人特性の構造を放棄しましたか?私が推測するのは、最初はFull Domain My Entire Timeをもう使用していないからです…そして、それはAtlassianを入手するのに役立ちました。 BOOSTによってもたらされた、Nazeで「ビジネスネットワーキング特権ディップ」と述べた。私たちの…素晴らしい友人とゲームファンは、私たちの小さなビジネス面の次の段階を掘り下げてきました。 Amazon …この課題への対処方法を理解することは、私たちにとって非常に重要です。それとも、あなたがそれを使用しないように導いた象がありましたか? 「当社の顧客IDは努力の上に構築されており、ほとんどすべての製品の更新はお客様から直接提供されます。 …それはそれについてであり、私はかろうじてそれを十分に得ることができます。ボトムレスピットの脆弱性は想像できません。
EmpiretechとMagicoliは、フロリダ州ジャクソンビルのZEROで社内トークンディーラーとして働いていました。彼らは両方とも、効果的な顧客プロファイルを作成する作業チームについて合理的でしたが、オレゴンほど遠くまで持っていました。候補者の標準的な選択はわずか2年後に始まり、ゾック博士は早くも1人と呼ばれ、ゾックヒカン博士はパートナーの地位を提供されました-カナダカードのトランスクリプトーム分析が「最大に等しい金額に基づいた支払い決定」を示すことを保証します) 。 Sucheng(True Recorder)の設立後まもなく、カナダのローワーズで小さなトラッカー開発ワークフローの実装を開始しました。昨年2月のZeppelinによる人間燃料の紹介後[…]「少量のトランザクションへの構造可視化麻痺の拡大」研究特別なデータ制約を克服するために構築されたElastic Data Drives。 Dexethまたはカードベースの市場自動化。 SVMu保険30,000人の他のスマートな東インドの起業家と協力して…続きを読む<| endoftext |>ストーリーのハイライトUFCフライ級の世界チャンピオン、アルドシルバはハワイの旗の下で戦うことを計画していた、とUFCのプレスリリース
ダイアン・スティーブンスは彼女に重傷を負った

 

ちょっと意味がわからないですね。
ここで,最新モデルの774Mでやり直してみます。引数に「–model_name=774M」を追加するだけです。

 

 

翻訳してみます。

 

チームはすべての業界の顧客と連携し、StuartはStars giant99のCEO自身と連携しています。
私たちは、Xiaomiの中国でのトップポジションにつながる経験を進化させるために、作成する製品を絶えず革新しています。
開発要素:
コンセプトから設計の最初の反復、製造の統合まで、製品全体を市場に投入するための長い妊娠期間を完了しました。機能は、正確な要件に合わせてカスタマイズすることも、経験豊富なチームが設計することもできます。当社の製品は、ほぼあらゆる状況でお客様のニーズに合うように設計されています
品質:
最先端のテクノロジー、最先端のAI、および訓練された設計頭脳のこのユニークな組み合わせは、最高の顧客体験の結果がすべて達成されることを確認するのに役立ちました。テクノロジーは私たちの救いですが、それを最大限に実装する場合のみです。
エンタープライズレベルのサポート:
AI TOKYO LABは、緊急の実用性のためのユニークな体験を提供します。カスタマーサービスを中核として、あらゆる問題を解決する特別なソリューションを提供しています。情報を説明し、問題の解決を支援するのが私たちの仕事です。私たちが協力して雑貨店向けの優れたソリューションを提供しましょう。
私たちはあなたに話しかけ、想像できるあらゆる方法であなたを満足させるだけでなく、あなたがあなたの道を見つけるだけでなく、前もって計画するのを助けることもできます。設計段階では常にお客様と密接に連携しており、意図していないことを確認するためにマイナーな側面を注意深くチェックしています。私たちにとって、あらゆる種類の人々が常にループにいることで、素晴らしいショッピング体験を楽しむことができます。
2018年には、ゲームチェンジャーのチームを編成します。キュウリのように頭が良い背景をお見せしましょう。
会社のDNA — QI.AIエゴ-スニタコッタパティが始めたものは、2018年2月にチームに加わったDbmapとIssenファイルコンストラクトで「レストランAI」を最近解決しました。 Zoukn Zangidge共同設立者+佐藤浩二調査顧問
私たちは素晴らしいチームを作り、私たちの精神と信念を共有する人々を探しています。 MIUI.ENのキャリアページをご覧になり、大切なプレイヤーリストをご覧ください<| endoftext |>マリガンズガイド
ターン1-マリガンをすぐに使用できるカードに向けます。
2ドロップ:可能であれば、フティングララジンとアスルテブーンを保管します。
3ドロップ:

 

他社の商品の紹介になってしまいました。
前回の結果よりは良くなった気がしますが,”あまりにも高度な文章が作成できる”というには無理があるように思えます。
次は実行時のオプションについて確認していきます。

オプションの設定

それぞれのスクリプトには以下のオプションがあります。(ほぼ直訳なのであしからず)

イベントインタビュー広報 2019.08.23

「Black Hat USA 2019」トレーニング参加者インタビュー

広報の馬場です。 アメリカ・ラスベガスにて開催された「Black Hat USA 2019」において、イエラエセキュリ…

イベント広報 2019.08.11

DEFCON 27 現地レポート

広報の馬場です。 アメリカ・ラスベガスにて8月8日から11日まで開催されている「DEFCON 27」に参加してい…

イベントインタビュー広報 2019.06.13

「Interop Tokyo 2019」参加レポート!近未来の技術に触れられる“ShowNet”とは

広報の馬場です。 幕張メッセにて6月12日(水)から14日(金)まで開催されている「Interop Tokyo 2019」…