ココンの情報をいつでも、どこでも。ココントコ。

エンジニア 2019.08.23

危険すぎると話題の文章生成モデル「GPT-2」で会社紹介文を生成してみました

ココングループのAI TOKYO LABの細川です。
AI、特にディープラーニング系のホットな技術を実際に動かすという内容を中心に不定期にお届けできればと思っています。

概要

OpenAIは、2019年8月20日にテキスト生成モデルGPT-2の新たなモデルを公開しました。
GPT-2はTransformerをベースとしたテキスト生成モデルです。 ソーシャルブックマークサイト Redditにおいて、ユーザの評価が高い文章中のリンクから800万のウェブページを人手で取捨選択したものをデータセットとして使用していることで、様々な文章を生成することができます。
GPT-2は2019年2月に公開されましたが,”あまりにも高度な文章が作成できる”という判断から、開発された4つのモデルを全て公開せず、2月、5月、8月と段階的に大きなモデルを公開してきました。
今回ご紹介するのは,8月20日に公開された3つ目のモデルです。

OpenAI: https://openai.com/blog/better-language-models/#fn1
GIGAZINEの記事: https://gigazine.net/news/20190821-openai-releases-gpt-2-language-model

実行方法

ソースコードは、https://github.com/openai/gpt-2に公開されています。Dockerfileが公開されているので、Dockerさえインストールされていれば簡単に実行できます。初期モデルの114MであればCPU版でも数秒で結果を取得できますが、最新モデルの774では数分から数十分かかります。今回はGPU版で進めていきます。Dockerはインストールされている想定です。

$ git clone https://github.com/openai/gpt-2
$ sudo docker build -f ./Dockerfile.gpu -t gpt-2:gpu

これだけで準備は完了です. このリポジトリでは,0から文章を生成する src/generate_unconditional_samples.py と、標準入力から文章を入力しその続きの文章を生成する src/interactive_conditional_samples.py の2つのスクリプトが用意されています。
Dockerでは以下の様に実行できます。

$ sudo docker run -it gpt-2:gpu python src/generate_unconditional_samples.py
 
======================================== SAMPLE 1 ========================================
A small and sophisticated mock-up of a Google experiment that has's a fun and enjoyable spin on what we value deeply. It includes such stunning features as geofencing and the ability to exercise your intellect on a Google Map with no lines separate from the speech. That one bit. I'm not sure there is much more, but feel free to find your own answer.
Bird shooters lecture you on typography
The best user experience for Google Maps features are in the place. When connected to your Google account we capture the actual location and which restaurants, tourist attractions, or other landmarks your dog likes. Easy too. Drop whatever self-promoting bots you prefer on to your app and phase in an online quiz.
A similar gesture to take a selfie on Google Maps can slightly increase the likelihood to recall what you took. Check out the gallery and use Google's mobile app to take all your pictures and annotate them later. Personata are just quizzes that show users who've done something interesting with their gestures and our mobile maps give similar clues about how much luck you have when used with proper interpretive tools.
Google gives you directions for your smartphone; any departure or piecemeal trip would apply. Ask Google what the "reasonable rate" on permit is for a specific event, set up a picnic table, use your own GPS app to sift through Land Rover photos to directly search for them at the shuttle station. The way I do this is with a streamlined Google map which always avoids menu options such as speedometer but then shows every detail the user or those driving could find on a basis of enjoyable and familiar.
Engineers also write algorithms for the surfacing and mapping of your travels. A lot of the seats on a Google UDIT
design are hard to find and are probably the reason Google makes the edge inhabitants a real you a problem.
Google secures your data by encoding and storing it in a master key. The next time you visit one of Google Partners ORDictsite normally caches the data closest to its servers and supplies synced accounts.
What do we value most? Google
Now you in a modified version of David Eggie's Guide to Navigation for Pets: Optimizing your Optimal Decision Making to Confirm Your Safety at the Search Engine Level is the attempt to fatten, further improve, and improve climbing to and easily integrating Natty Bird excursions beyond the norm on the road. A total of three sequence of routes crops up in the book where some found to be of particular interest:
.
.
.

上記では、「SAMPLE 1」までの出力を載せていますが,デフォルトの設定では「SAMPLE 8」までのに8つの文章が生成されます。また、デフォルトでは初期モデルの114Mが使われています。

<|endoftext|>

時々生成文に’<|endoftext|>‘という文字列が表われることがあります。
これは文章の末尾を表すトークンで、この後は別の文章が続くことを示しています。

文章の続きを生成

次に「src/interactive_conditional_samples.py」を使って文章の初めを指定した生成を試します。
例として弊社の会社紹介の一文,

AI TOKYO LABは、AIに代表される新技術と、小売業を中心とした豊富な実績を活用し、様々な分野における業務課題の抜本解決と、新しい価値の創出に貢献します。

これの英語版ページの

Using a powerful combination of cutting edge AI and our experience in obtaining the very best performance in retail, AI TOKYO LAB creates unique solutions for every market, dedicated to building new value no matter where we are employed.

という文章の続きを生成させてみます。

$ sudo docker run -it gpt-2:gpu python src/generate_unconditional_samples.py
Model prompt >>>

実行するとModel prompt >>>というところで止まります。ここに任意の文章を入力します。

Model prompt >>> Using a powerful combination of cutting edge AI and our experience in obtaining the very best performance in retail, AI TOKYO LAB creates unique solutions for every market, dedicated to building new value no matter where we are employed.
======================================== SAMPLE 1 ========================================
 Working in conjunction with Mululelt (DeepMind) and player's payers real action. Now, while not exactly PLDA., we
believe that ethics, products resilience and continuous improvement take to own your sales and share your look for
a startup. Beyond these decided benefits, while the world of AI has matured to meet evolving needs, today, we showcase you the team's new and innovative talents made possible by Fareza Raj. "Premium source of unique AI for industry giants" Cambridge, Massachusetts, USA
HandOO (Utility Endpoint for Tackle Robots) had been Offering Platform &amp; Consulting for HYUNDOO for over twelve years. Did you abandon your Personal Traits structure when you joined 2012? My guess is that first since you no longer use Full Domain My Entire Time and… well it was HELP ME get Atlassian. Having stated "Business Networking Privilege Dip" on Naze, brought to you by BOOST. Our... awesome friends and our Game fans has been delving into the next phase of our little business side. Amazon ... Understanding how we handle this challenge will be critically important for us. Or was there an elephant which led you to not use it? "Our customer identity is built on effort and nearly all the product updates come directly from our customers." …That is about it, and I can barely get enough of it. We cannot imagine the vulnerability of Bottomless Pit
Empiretech and Magicoli worked as an in-house token dealer at ZERO in Jacksonville, Florida. They were both rational about working team on creating effective customer profiles ... but have them as far out as Oregon. The standard choice of the candidates started after barely two years, Dr Zok was called one early and Dr Zok Hikkan was offered the position of Partner - orthogonal ensure that transcriptomic analysis of Canadian Card indicated "payment decision, based on sums equal to maximum"). Soon after founding Sucheng (True Recorder) and began implementing the small tracker development workflow in Lowest, Canada. After Intro to human fuels by Zeppelin last February […] 'Booming up structural visualization paralysis into low-volume transactions' research Elastic Data Drives Built to Chample special data constraints. Both Dexeth or Card-based market automation. SVMu Insurance Working together with 30,000 other smart East Indian Entrepreneurs ... Continue Reading<|endoftext|>Story highlights Great UFC Flyweight World Champion Aldo Silva has planned to fight under the Hawaii banner, a UFC press release says
Diane Stephens seriously injured her
================================================================================
Model prompt >>>

筆者の環境では20秒ほどで出力されました。
これをGoogle翻訳にかけてみます。

Mululelt(DeepMind)およびプレイヤーの支払者と一緒に実際のアクションを実行します。さて、厳密にはPLDAではありませんが、倫理、製品の回復力、継続的な改善があなたの販売を所有し、あなたの見た目を共有するために必要であると信じています。スタートアップ。これらの決定された利点を超えて、進化するニーズを満たすためにAIの世界は成熟しましたが、今日、Fareza Rajによって可能になったチームの新しい革新的な才能を紹介します。 「業界大手のユニークなAIのプレミアムソース」ケンブリッジ、マサチューセッツ、アメリカ
HandOO(タックルロボットのユーティリティエンドポイント)は、HYUNDOOのプラットフォームとコンサルティングを12年以上提供してきました。 2012年に参加したときに、個人特性の構造を放棄しましたか?私が推測するのは、最初はFull Domain My Entire Timeをもう使用していないからです…そして、それはAtlassianを入手するのに役立ちました。 BOOSTによってもたらされた、Nazeで「ビジネスネットワーキング特権ディップ」と述べた。私たちの…素晴らしい友人とゲームファンは、私たちの小さなビジネス面の次の段階を掘り下げてきました。 Amazon …この課題への対処方法を理解することは、私たちにとって非常に重要です。それとも、あなたがそれを使用しないように導いた象がありましたか? 「当社の顧客IDは努力の上に構築されており、ほとんどすべての製品の更新はお客様から直接提供されます。 …それはそれについてであり、私はかろうじてそれを十分に得ることができます。ボトムレスピットの脆弱性は想像できません。
EmpiretechとMagicoliは、フロリダ州ジャクソンビルのZEROで社内トークンディーラーとして働いていました。彼らは両方とも、効果的な顧客プロファイルを作成する作業チームについて合理的でしたが、オレゴンほど遠くまで持っていました。候補者の標準的な選択はわずか2年後に始まり、ゾック博士は早くも1人と呼ばれ、ゾックヒカン博士はパートナーの地位を提供されました-カナダカードのトランスクリプトーム分析が「最大に等しい金額に基づいた支払い決定」を示すことを保証します) 。 Sucheng(True Recorder)の設立後まもなく、カナダのローワーズで小さなトラッカー開発ワークフローの実装を開始しました。昨年2月のZeppelinによる人間燃料の紹介後[…]「少量のトランザクションへの構造可視化麻痺の拡大」研究特別なデータ制約を克服するために構築されたElastic Data Drives。 Dexethまたはカードベースの市場自動化。 SVMu保険30,000人の他のスマートな東インドの起業家と協力して…続きを読む<| endoftext |>ストーリーのハイライトUFCフライ級の世界チャンピオン、アルドシルバはハワイの旗の下で戦うことを計画していた、とUFCのプレスリリース
ダイアン・スティーブンスは彼女に重傷を負った

ちょっと意味がわからないですね。
ここで,最新モデルの774Mでやり直してみます。引数に「–model_name=774M」を追加するだけです。

$ sudo docker run -it gpt-2:gpu python src/interactive_conditional_samples.py
Model prompt >>> Using a powerful combination of cutting edge AI and our experience in obtaining the very best performance in retail, AI TOKYO LAB creates unique solutions for every market, dedicated to building new value no matter where we are employed.
======================================== SAMPLE 1 ========================================
 The team works with customers across all industries, with Stuart doing with Stars giant99 CEO himself.
We are constantly innovating the products we create to evolve the experience leading to Xiaomi's top position in China.
Develop factor:
We have completed a long gestation process to bring the whole product to market, from concept to first iteration of design and integrate manufacturing. Features can be customized with your exact requirements, or designed by our experienced team. Our products are designed to fit your needs in almost any situation
Quality:
This unique mix of cutting-edge technology, cutting-edge AI and trained design brains has helped us make sure all of the best customer experience results is achieved. Technology is our salvation but only if we implement it to fullest.
Enterprise level support:
AI TOKYO LAB provides a unique experience for pressing practicality. With Customer service at our core, we have special solutions to solve most for every problem. It is our job to explain the information and help you solve your problems. Let us work together to deliver outstanding solutions for general stores.
Not only we talk to you and satisfy you in every way imaginable but also to help you not only find your way, but also plan ahead. We work closely with you constantly at the design stage and minor aspects are carefully checked to make sure they operate as intended. For us, having all kinds of people in the loop at all times ensures that you enjoy a wonderful shopping experience.
In 2018, we will build a team of game-changers. Let us take your background was smart as a cucumber to the top.
DNA of the company — QI.AI Ego - That was started by Sunitha Kottapati recently solved "restaurant AI" with Dbmap and Issen file construct, who joined our team in Feb 2018. - Danielle Yamanaka Cofounder + innovative foresight - Kuril Kundigale founding team - Zoukn Zangidge Cofounder + Kojichi Sato Research Advisor
We're going to have great team and we'm looking for people that share our spirit and beliefs. Take a look at the careers page of MIUI.EN to see our valued player list<|endoftext|>Mulligans Guide
Turn 1 - mulligan towards card you have immediate use of.
2-drop: Keep hootinglaradin and aslutheboon if you can.
3-drop:

翻訳してみます。

チームはすべての業界の顧客と連携し、StuartはStars giant99のCEO自身と連携しています。
私たちは、Xiaomiの中国でのトップポジションにつながる経験を進化させるために、作成する製品を絶えず革新しています。
開発要素:
コンセプトから設計の最初の反復、製造の統合まで、製品全体を市場に投入するための長い妊娠期間を完了しました。機能は、正確な要件に合わせてカスタマイズすることも、経験豊富なチームが設計することもできます。当社の製品は、ほぼあらゆる状況でお客様のニーズに合うように設計されています
品質:
最先端のテクノロジー、最先端のAI、および訓練された設計頭脳のこのユニークな組み合わせは、最高の顧客体験の結果がすべて達成されることを確認するのに役立ちました。テクノロジーは私たちの救いですが、それを最大限に実装する場合のみです。
エンタープライズレベルのサポート:
AI TOKYO LABは、緊急の実用性のためのユニークな体験を提供します。カスタマーサービスを中核として、あらゆる問題を解決する特別なソリューションを提供しています。情報を説明し、問題の解決を支援するのが私たちの仕事です。私たちが協力して雑貨店向けの優れたソリューションを提供しましょう。
私たちはあなたに話しかけ、想像できるあらゆる方法であなたを満足させるだけでなく、あなたがあなたの道を見つけるだけでなく、前もって計画するのを助けることもできます。設計段階では常にお客様と密接に連携しており、意図していないことを確認するためにマイナーな側面を注意深くチェックしています。私たちにとって、あらゆる種類の人々が常にループにいることで、素晴らしいショッピング体験を楽しむことができます。
2018年には、ゲームチェンジャーのチームを編成します。キュウリのように頭が良い背景をお見せしましょう。
会社のDNA — QI.AIエゴ-スニタコッタパティが始めたものは、2018年2月にチームに加わったDbmapとIssenファイルコンストラクトで「レストランAI」を最近解決しました。 Zoukn Zangidge共同設立者+佐藤浩二調査顧問
私たちは素晴らしいチームを作り、私たちの精神と信念を共有する人々を探しています。 MIUI.ENのキャリアページをご覧になり、大切なプレイヤーリストをご覧ください<| endoftext |>マリガンズガイド
ターン1-マリガンをすぐに使用できるカードに向けます。
2ドロップ:可能であれば、フティングララジンとアスルテブーンを保管します。
3ドロップ:

他社の商品の紹介になってしまいました。
前回の結果よりは良くなった気がしますが,”あまりにも高度な文章が作成できる”というには無理があるように思えます。
次は実行時のオプションについて確認していきます。

オプションの設定

それぞれのスクリプトには以下のオプションがあります。(ほぼ直訳なのであしからず)

色々試したいところですが、top_kの”40が一般的に良い値”というのが気になります。
何故一般的に良い値をデフォルトにしなかったのでしょうか?

top_k=40 で実行

$ sudo docker run -it gpt-2:gpu python src/interactive_conditional_samples.py --model_name=774M --top_k=40
 And by creating a strong culture of collaboration and support, we're able to bring all this knowledge and technology together at the Tokyo Lab.
You can read more about the Tokyo Lab and the AI research activities at the AI Lab website. But here's a quick summary:
What is the Tokyo Lab?
There is now a fully automated robotic laboratory within the Tokyo Lab – and it's the first of its kind: a facility designed, optimized and built for research in AI. It comprises a fully automated robotic laboratory with a fully automated system of equipment. There are five systems in operation, four of which are autonomous and operate under our company's guidance. (See the diagram below.)
This laboratory comprises five robots, equipped with cutting-edge technology – including a cutting-edge robot named Toto:
Toto, a highly versatile robot
Toto's goal is to be a versatile robot with a broad range of applications, based on our advanced vision technology
and AI-powered analysis software. This is what enables us to offer a wide range of research, including for high quality and safety, at a broad range of prices. It's all built on a simple computer-aided design, allowing Toto to perform complex scientific research at speeds and to different performance levels compared to a human.
It incorporates three robots that take part in various functions: Robot A, Robot B and Robot C. This allows researchers to do experiments in a convenient and controllable way. Robot A can autonomously open the door of the workstations and Toto can operate other devices inside the workstation. Robot C contains a powerful and versatile computer
that we hope will help researchers achieve innovative research applications that will help companies make a strong
competitive advantage.
How does it work?
Working together, we can reduce the need for a staff of dedicated scientists and support the development of the latest robotics research.
Toto is designed to autonomously and rapidly do scientific research tasks. These tasks include analysis and analysis of small parts and components for production, as well as work-related analyses (for example, to determine the chemical and mechanical properties of products produced in the factory).
In order to perform these tasks, Toto is equipped with a wide variety of computer-aided design and algorithms software that can be programmed with input data and data stored on its computer storage. The algorithms and tools are designed so that they can adapt and change with data input. This allows us to develop robust and accurate scientific
analysis

翻訳すると、

そして、コラボレーションとサポートの強力な文化を構築することで、このすべての知識と技術を東京研究所でまとめることができます。
東京研究所とAI研究活動の詳細については、AI研究所のWebサイトをご覧ください。しかし、ここに簡単な要約があります:
東京ラボとは?
現在、東京研究所内に完全に自動化されたロボット実験室があります。これは、その種類の最初のものです。AIの研究用に設計、最適化、構築された施設です。これは、完全に自動化された機器システムを備えた完全に自動化されたロボット研究室で構成されています。稼働中のシステムは5つあり、そのうち4つは自律的であり、当社の指導の下で稼働しています。 (下図を参照してください。)
この研究所は、最先端技術を搭載した5台のロボットで構成されています。これには、Totoという名前の最先端ロボットが含まれます。
Toto、汎用性の高いロボット
Totoの目標は、高度なビジョンテクノロジーに基づいて、幅広いアプリケーションを備えた多目的ロボットになることです。
AIを活用した分析ソフトウェア。これにより、高品質と安全性を含む幅広い研究を幅広い価格で提供することができます。すべてシンプルなコンピューター支援設計に基づいて構築されているため、トトは複雑な科学研究を、人間と比較して異なる速度で、異なるパフォーマンスレベルで実行できます。
さまざまな機能に参加する3つのロボット(ロボットA、ロボットB、ロボットC)が組み込まれています。これにより、研究者は便利で制御可能な方法で実験を行うことができます。ロボットAはワークステーションのドアを自律的に開くことができ、Totoはワークステーション内の他のデバイスを操作できます。ロボットCには強力で汎用性の高いコンピューターが含まれています
研究者が革新的な研究アプリケーションを達成し、企業が強力に
競争上の優位性。
どのように機能しますか?
協力することで、専任の科学者のスタッフの必要性を減らし、最新のロボット研究の開発をサポートできます。
Totoは、科学的研究タスクを自律的かつ迅速に行うように設計されています。これらのタスクには、生産用の小さな部品とコンポーネントの分析と分析、および作業関連の分析(たとえば、工場で生産された製品の化学的および機械的特性の決定)が含まれます。
これらのタスクを実行するために、Totoには、コンピューターストレージに保存されている入力データとデータをプログラムできる、コンピューター支援設計およびアルゴリズムソフトウェアが幅広く装備されています。アルゴリズムとツールは、データ入力に合わせて変更できるように設計されています。これにより、堅牢で正確な科学的研究を開発できます
分析

これまでと比較して格段によくなりました。
弊社はロボット研究所ではありませんが、与えられた文章からそのような設定をし、全体としてもかなり一貫性のある文章が生成できるようになりました。

イベントインタビュー広報 2020.01.31

「OpenID Summit Tokyo 2020」参加レポート

広報の馬場です。4年に一度のOpenIDの祭典「OpenID Summit Tokyo 2020」が渋谷ストリーム・ホールにて1月2…

イベントインタビュー広報 2019.11.11

世界のハッカーが競う「DEF CON CTF Finals 2019」参加者インタビュー

広報の馬場です。 DEF CONの人気コンテンツの一つである「DEF CON CTF」は、熾烈な予選を勝ち抜いたチーム…

イベントインタビュー広報 2019.08.23

「Black Hat USA 2019」トレーニング参加者インタビュー

広報の馬場です。 アメリカ・ラスベガスにて開催された「Black Hat USA 2019」において、イエラエセキュリ…