言語処理学会第25回年次大会(NLP2019)に参加してきました

はじめまして。データ分析の小島といいます。
3/12~15に名古屋大学で開催された言語処理学会第25回年次大会(NLP2019)に、プラチナスポンサーとして参加したレポートです。

去年は聴講のみでモノタロウからは1人で参加したのですが、今年は前半3人、後半2人での参加となりました。
今年のスポンサーは65社となり、自然言語処理への注目度の高さがうかがえます。

ブースでは4日間で多くの方に訪れていただき、お話しさせていただくことができました。
モノタロウという社名はご存じでも(ありがとうございます!)、機械学習やNLPとどんな関係が?と聞かれることが多かったです。
1800万点の商品情報やお客様の行動ログなど多種多様なデータがあり、B2Bならではの課題とそれを機械学習を用いて解決することができる環境についてお伝えさせていただきました。

大会中の様子をいくつかピックアップしてご紹介します。

招待講演「探究と協同を通じた子どもたちの「深い学び」」

藤村宣之先生の講演です。
自然言語処理と直結する話ではありませんが、子を持つ親として興味深く聴かせていただきました。
「協同的探究学習」という理念を初めて知ったのですが、自分から考えられる子を育てるためには正解のみを学ぶのではなくその答えを導いた過程、または間違っていたとしても多方面からの視点を知ることで、個々の学びが深まるというお話しでした。
言われてみれば当たり前な気もしますが、なかなかそういう環境を与えるのは難しいですし、今まで意識できていませんでした。
講演では主に小・中といった低年齢の子供の教育について焦点があてられていましたが、同じことが社会人になった今でも言えそうです。
データ分析チームでは定期的に研究会を開き、論文を読んで勉強したり応用について考えたりしています。
せっかくさまざまな背景のメンバーが揃っているので、今よりもっと活発な議論をして多くの意見を交わしていきたいと思います。

面白いと思った発表3つ

見させていただいた中から面白いと感じたものを紹介します。
全ての発表や論文を見たわけではないので、あくまで見た中からの個人的な感想です。

B4-8 外部知識源を使用したWikipediaからの化合物情報抽出 ○邊土名朝飛, 野中尋史 (長岡技科大), 小林暁雄, 関根聡 (理研AIP)

Wikipediaから化合物の原材料や製造方法を抽出する際、化合物名を固定のラベルに置き換える前処理をしてから抽出しようという発表です。
固有表現を置き換える手法は他の研究でもされていますが、タイトル化合物とそれ以外の化合物といった2種類のみのラベルに置き換えて難しい抽出の精度がこれだけ上がったというのは興味深いです。
パターン化しているので、recallへの貢献が大きいですね。
発表時の質問にもありましたが、もう少しラベルの分類をするとさらなる改善につながるかもしれません。

F2-1 語彙知識を取り入れた韓国語語節分割 ○金山博, 小比田涼介 (日本IBM)

韓国語の語節分割を双方向LSTM+CRFで行う際に、前後五文字までのn-gramに対して、辞書に存在するかといった語彙知識を取り入れる研究です。
モノタロウのデータ分析で韓国語を扱うことは今のところないのですが、外部知識を取り入れる手法として応用が利きそうです。
また、実はNAVIMROという韓国向けサイトも運営していますので、韓国語の分析をする日もくるかも?

P6-4 語彙的含意関係識別による単語意味属性の推定 ○長谷川美夏, 小林哲則, 林良彦 (早大)

単語とその単語が持つ意味属性のデータセットと単語対の含有関係を使い、単語の分散表現から属性を推定するという研究です。
Siamese Networkを使って少ない学習データから語彙的含意関係を学習させています。
著者の方はどう実用できるかわからない、とおっしゃっておられましたが、結構使い道の多そうな研究だと思います。
グループ内でもこの論文を使って研究会をしようと計画中です!

BERTはすごい

どの分野でも双方向LSTMは当然のごとく使われていましたが、さらに気になったのはBERTの勢いです。
チュートリアルでも紹介されており、論文のタイトルに含まれていたのが4本。
論文内の出現頻度は数えていませんが、かなりの数になったのではないでしょうか。
汎用的なモデルだけに、あらゆるタスクで注目されているのを感じました。
モノタロウならではのpre-trained modelを作り、小規模の学習データで各タスクに応用・・・なんて夢が広がります。

スポンサーイブニング

初日、チュートリアルが終わったあとに開催されました。
各社30秒のアピール時間があり、そのあと各自気になったブースへ行って話すというスタイルです。
f:id:monotaro_kojima:20190405151504j:plain:w300
30秒では普通のことをしゃべっても、記憶に残らないなというのが印象です。
担当者は、来年はモノタロウ侍の着ぐるみで登壇します!と意気込んでいます(会場から許可が下りるかは不明です・・・)

まとめ

研究発表で最新の手法を勉強しつつ、NLPが実業務でどんな風に使われているのかをスポンサーブースでじっくり話を聞くこともできる、とても有意義な大会だと思います。
私自身そうでしたが、論文に書かれている内容が現実社会でどんな風に貢献しているのか興味がある方も多いのではないでしょうか。
研究の先にある世界にも足を踏み入れたいと思われた方はぜひ、モノタロウで私たちと一緒にトライしてみませんか?