日本データベース学会

dbjapanメーリングリストアーカイブ(2018年)

[dbjapan] 情報処理学会 第237回自然言語処理研究会 参加募集


(重複して受け取られた場合はご容赦下さい)

メーリングリスト購読者の皆様,

北見工業大学のミハウ・プタシンスキと申します.
研究会幹事桝井文人先生の代理で連絡をさせていただいております.

9月25日(火),26日(木)に北見工業大学にて開催します
第237回自然言語処理研究会の参加募集をお送りします.

皆様のご参加をお待ちしております.

ミハウ・プタシンスキ(博士/情報科学,准教授)
北見工業大学 情報システム工学科
〒090-8507 北見市公園町165番地
TEL/FAX: 0157-26-9327
ptaszynski [at] cs.kitami-it.ac.jp


===============================================
情報処理学会 第237回自然言語処理研究会 参加募集
https://nl-ipsj.or.jp

●日程: 2018年9月25日 (火)・26日 (水)

●会場: 北見工業大学 A106講義室 (1号館1階)
  アクセス・キャンパスマップ:
   http://www.kitami-it.ac.jp/about/access/

●動画中継
今回の研究会では,インターネットを利用した研究発表の動画中継を予定
しております.基本的にすべての発表を動画中継の対象とする予定ですが,
発表者の希望により対象から外すことも出来ますので,研究発表の当日に
その旨お伝えください.動画中継の詳細については,追ってアナウンス
いたします.

●懇親会
9月25日(火)に北見駅周辺にて懇親会を(参加費別途)予定しております.
参加人数把握の都合上,参加をご希望の方は 9月14日(金)までに下記
フォームにご回答下さい.
 https://goo.gl/forms/au0HMYRzU1lfVm683

●カーリング体験会
9月27日の午前に「カーリング体験会」を開催する予定ですので,奮って
ご参加下さい.
日程: 2018年9月27日 (木) 午前
会場: アドヴィックス常呂カーリングホール
 http://www.okhotsk-sports-camp.jp/facility/detail.php?fcid=21
参加費:1,500円程度を予定(参加人数によって多少変動します)
備考: 送迎バスを準備します.9:00 北見駅付近発〜13:00北見駅付近着
 復路は女満別空港を経由します.
 講師は平昌オリンピック男子代表メンバ平田洸介選手を予定しています.
 – 参加ご希望の方は,以下よりお申し込み下さい.
 https://goo.gl/forms/BCNiSYUPFofpwja73


●問い合わせ先:
桝井文人,プタシンスキ・ミハウ(北見工業大学)
E-mail: staff (at) mail.kitami-it.ac.jp

===============================================
プログラム
9月25日(火) 13:00-16:45  (4件+招待講演1件)
[13:00-13:15] オープニング
[13:15-14:15] 招待講演  (1件)
[14:15-14:30] 休憩
[14:30-15:30] 言語処理応用 (2件)
[15:30-15:45] 休憩
[15:45-16:45] 言語処理応用 (2件)
[18:00- ] 懇親会

9月26日(水) 10:45-16:00  (6件)
[10:45-11:45] 情報抽出・知識獲得 (2件)
[11:45-13:30] 昼休み
[13:30-14:30] 情報抽出・知識獲得 (2件)
[14:30-14:45] 休憩
[14:45-15:45] 深層学習 (2件)
[15:45-16:00] クロージング

9月27日(木)9:00-13:00 カーリング体験会


9月25日(火)13:00-16:45 (4件+招待講演1件)

[13:00-13:15] オープニング

[13:15-14:15] 招待講演  (1件)

(01)
オノマトペから見る言葉のあいまいさ
内田ゆず(北海学園大学)

[14:15-14:30] 休憩

[14:30-15:30] 言語処理応用 (2件)

(02)
   GAN を用いた単語の関係性予測
犬塚 眞太郎,中山 英樹(東大)

人工知能(Artificial
Intelligence)に実世界の知識を解釈可能にするという研究は,
長い間人工知能の研究の最も重要な話題のひとつであった.これは人工知能の
タスクについて必要な技術であり,質問応答や知識推論といった分野で重要に
なるものである.これらのタスクは主として自然言語を扱うため,人工知能が
自然言語の構造や関係性を理解することができるようになる必要がある.人工
知能による自然言語処理の分野では,伝統的な知識ベースのデータセットが存在
する.これらはそれぞれ単語とその関係性を木構造によって示したものである.
しかしながら,それらは記号的かつ論理的であり,コンピュータである人工知
能に処理させるのが非常に困難であった.また,これらのデータセットは主に
人手によって作られており,原理的にすべての単語に対して関係性を表現する
ことができなかったり,そもそもデータセットが不完全であったりといったよう
な問題がある.その問題に対して単語のベクトル表現という手法も存在する.
各単語をベクトル表現とすることで,コンピュータに処理させることが可能に
なる.しかしながら,単語をベクトル表現としてしまうと,先に述べたような
単語の関係性の情報は失われてしまう.本研究では,ベクトル表現となっている
単語に対する関係性の予測に Generative Adversarial Networks を用いた手法を
提案する.関係性を持った単語のペアで学習することにより,未知の単語のペア
に対して関係性の予測を行う.このモデルによって,単語に対する関係性の人手
によるタグ付けのコストの低下が期待できる.

(03)
A proposal for a unified corpus of the Ainu language
Nowakowski Karol, Ptaszynski Michal,  桝井文人(北見工大)

Ainu is an endangered language spoken in northern Japan. It has been the
subject of many studies, but most scholars work on small amounts of
language
data. Also, there is no general agreement on such matters as word classes
existing in Ainu, thus various conventions for linguistic description are
used. To
address that problem, we propose a corpus of Ainu covering a wide range of
documents, in a consistent structure that will enable large-scale
linguistic
analysis and support the development of NLP technologies for Ainu,
contributing to the process of its revitalization. The corpus contains
parallel text
in Ainu and Japanese. Its subset includes POS annotations produced by
expert
linguists. For the remaining part, annotations will be generated
automatically. At
present, resources collected for the corpus comprise 2M characters (428K
tokens)
of text in Ainu. Their utility for NLP applications has been verified by
applying
them in a tokenization system, which achieved F-score! above 95%.

[15:30-15:45] 休憩

[15:45-16:45] 言語処理応用 (2件)

(04)
依存構造に基づく単語から語義の分散表現への細分化
芦原 和樹,梶原 智之,荒瀬 由紀(大阪大),内田 諭(九州大)

多くの自然言語処理タスクにおいて単語分散表現が利用されている。しかし、
各単語に1つの分散表現を割り当てるアプローチでは、多義語における各語義
の情報が混在してしまう。この問題に対処するために、先行研究では品詞や
トピックごとに異なる分散表現を割り当てたが、これらの手法には多義性を
扱う粒度が粗いという課題がある。本研究では、単語間の依存関係を手がかり
として各単語に複数の分散表現を割り当てる手法を提案する。提案手法は、
先行研究よりも細かい粒度で多義性を扱うことができる反面、データスパース
ネス問題が危惧される。そこで我々は、多義語における各分散表現の初期値と
して、語義を区別せずに事前学習した分散表現を用いることでこの問題に対処
する。単語間の意味的類似度タスクおよび語彙的換言タスクにおける実験の
結果、提案手法は各単語に複数の分散表現を割り当てる先行研究よりも高い
性能を発揮した。また、詳細な分析の結果、初期化がデータスパースネス問題
を解決することも確認できた。

(05)
Androidアプリのレビューを用いたユーザーへの権限説明の補完
   小島 智樹,酒井 哲也(早稲田大)

   現代では、多くの人がスマートフォンを使用している。そして、それに対応
する多くのアプリケーションが公式のストアである GooglePlay などで配布
されている。アプリケーションをダウンロードするとき、ユーザは権限を求め
られる。権限とは端末のセンシティブな情報にアクセスする許可のことである。
権限はときに悪用されるため、ユーザーは権限の要求の理由がわからず、不安
を覚えることがある。本論文ではアプリケーションの権限と説明文、及び
レビューを利用し、権限の説明を補完することで不安の軽減を行う手法に
ついて提案する。

[18:00- ] 懇親会

9月26日(水)10:45-16:00  (6件)

[10:45-11:45] 情報抽出・知識獲得 (2件)
(06)
音声対話システムに向け意味属性抽出と意図タイプ推定実装小型化
米持 幸寿(ホンダ・リサーチ・インスティチュート・ジャパン)

音声対話システムの構築において, 自然言語理解 (Natural Language Under-
standing: NLU)のための固有表現 (Named Entity: NE) の抽出 (Extract) と意図の
推定 (Intent Estimation) は初歩的かつ基本的な自然言語処理である. 過去の対話
システム研究において, 日本語における形態素解析, 品詞推定, 係り受け解析,
パターンマッチングなどを様々なOSSを組み合わせることで実現している例が
多く存在する. しかし, そういったシステムは複雑かつコード量が多いという
課題も存在する. そのような特徴はオフライン小型ロボットの組み込み用途に
使う場合に障壁となる. 本研究では, プログラミング言語が標準で装備している
正規表現のみを活用することでコード量を劇的に削減した上で同等の機能を
実現する実装を試作した結果を紹介する.

音声対話システムの構築において, 自然言語理解 (Natural Language Under-
standing: NLU)のための意味属性抽出と意図タイプの推定は基本的な自然言語
処理である.過去の対話システム研究において, 日本語における形態素解析,
品詞推定,係り受け解析,パターンマッチングなどを,様々なOSSを組み合わ
せることで実現している例が多く存在する.しかし,そういったシステムは
複雑かつコード量が多いという課題も存在する.そのような特徴はオフライン
小型ロボットの組み込み用途に使う場合には障壁となる.本研究では,プログ
ラミング言語が標準で装備している正規表現のみを活用することでコード量を
劇的に削減した上で同等の機能を実現する実装を試作した結果を紹介する.

(07)
Wikipedia から獲得した外部知識を用いた賛否分類
塙 一晃(東北大),佐々木 彬(リクルートテクノロジーズ),岡崎 直観(東京工大),
乾 健太郎(東北大/理研AIP)

本研究では賛否分類においてトピックに関する外部知識を利用するための手法
を提案する.Wikipedia 記事に紐づいた7トピックに関する 6,701 件のツイート
からなるデータセットを作成し,分析することで賛否分類における外部知識の
必要性が明らかとなった.また,本研究では Wikipedia 記事から獲得した知識
を賛否分類で利用するために,関連する知識を参照しながら文をエンコード
することができるモデルを提案する.Wikipedia から獲得した知識を使用する
提案手法は外部知識を使用しないものよりも高い精度で賛否の予測ができる
ことが実験結果より明らかとなった.

[11:45-13:30] 昼休み

[13:30-14:30] 情報抽出・知識獲得 (2件)
(08)
文字分散表現に基づく単語分類情報を用いたレシピ固有表現抽出
平松 淳,若林 啓(筑波大),原島 純(クックパッド)

固有表現抽出は自然言語処理の基本的なタスクの1つであり,活発に研究が行
われている.固有表現の抽出を行うためには,テキストに対して固有表現を
付与した教師データが必要である.しかし,ドメインごとに教師データを構築
することはコストが大きい.そこで,本研究では教師データだけではなく,
ドメインに関連する言語資源を利用する固有表現抽出モデルを提案する.具体
的には,文字分散表現に基づいて文中の単語を言語資源中で定めたカテゴリに
分類し,分類情報を固有表現抽出モデルの入力として利用する.このモデルに
ついて料理ドメインのデータを用いて実験し,その結果を報告する.

(09)
Wikipedia構造化のための属性値抽出手法比較とデータ分析
中山 功太,坂下 和司,寺澤 一樹(豊橋技科大),小林 暁雄,関根 聡(理研AIP)

   Wikipedia 記事から機械可読な辞書を構築するためには、 Wikipedia 記事中に
記述された、様々な特徴を機械によって自動的に候補を抽出し、人手によって
精査する必要がある。この実現に向けて、本研究では、基礎となる辞書の構造
として、関根の拡張固有表現カテゴリを使用し、そのカテゴリに設定された
属性の値を抽出する手法について、パターンマッチ、辞書マッチ、機械学習に
よるチャンキングの 3 手法について適用し、その比較を行った。また、この
比較に伴い、Wikipedia 記事における属性値の記述の特徴や、それらの特徴と
拡張固有表現カテゴリの属性定義との対応関係の分析などを行った。これに
より得られた知見をもとに、森羅:Wikipedia 構造化プロジェクトの実施に向け
て、構造化サンプル、階層定義の改善を行った。

[14:30-14:45] 休憩

[14:45-15:45] 深層学習 (2件)
(10)
構文情報を陽に与えたときの LSTM-RNN による内部表現について
岡本 千尋(東京工科大),内海 慶(デンソーアイティーラボラトリ),
持橋 大地(統計数理研)

長短期記憶リカレントニューラルネット (LSTM-RNN) は,構文情報に代表され
るような,文中の有用な長期依存関係を捉えることにより,高精度な言語モデ
ルを学習することができることが知られている.しかし逆に,一般的にどの
程度構文情報を学習できているのかや,どのように構文情報がベクトルとして
RNN内に表現されるかについては,まだ十分に研究がされていないのが現状で
ある.そこで,我々はその初歩として,英語における句構造をあらわす構文木
を線形化し文として与えて学習させたときに,RNN内で構文情報がどのように
エンコードされるかについて詳細に分析した.その結果,L1 正則化を用いる
ことで例えば RNN 内の内部ベクトルのうち少数の要素の値が,VP, N Pなど
句構造の各タグごとのネストの深さと非常に高い相関を持つこと,および,
同じく少数の要素の値から,VP, NP などの内外にいることを高精度で線形
分離できること,などがわかった.

(11)
文脈自由文法とニューラルネットワークを用いた並列構造木のCKY構文解析
寺西 裕紀,進藤 裕之,松本 裕治(NAIST)

本研究は文脈自由文法を用いて並列構造を木として導出する手法を提案する.
現在の最高精度の解析性能を達成しているニューラルネットワークによる並列
構造解析の手法は,文中の複数の並列構造や3つ以上の並列句を陽に扱って
おらず,解析結果を他のタスク等に利用することが難しい.複数の並列構造や
3 つ以上の並列句の解析を行う場合,並列構造となりうる句のスパンの組み
合わせが指数的に増加するため膨大な計算コストを要するという問題がある.
そこで本研究では並列構造を木として導出できる文脈自由文法を定義し,計算
量を抑えながら並列構造の木をボトムアップで構築する.実験の結果,提案
手法によって文中の複雑な並列構造の範囲が競合せず導出できることを保証
しながら,個々の並列構造ごとの評価において既存手法と同等以上の解析性能
を得たことを示す.

[15:45-16:00] クロージング

9月27日(木)9:00-13:00 カーリング体験会
===============================================

★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行い
ません.また,特許出願の公知日(研究報告の公開日)が従来より1週間
早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.
当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

★研究会幹事団
主査:
 関根聡  (理研)
幹事:
 荒瀬由紀 (大阪大学)
 木村俊也 (株式会社メルカリ)
 進藤裕之 (奈良先端科学技術大学院大学)
 中澤敏明 (東京大学)
 西川仁  (東京工業大学)
 桝井文人 (北見工業大学)
 横野光  (株式会社富士通研究所)
運営委員:
 浅原正幸 (国立国語研究所)
 荒牧英治 (奈良先端科学技術大学院大学)
 石野亜耶 (広島経済大学)
 内海慶  (株式会社デンソーアイティーラボラトリ)
 内田ゆず (北海学園大学)
 小林隼人 (Yahoo! JAPAN 研究所)
 佐々木稔 (茨城大学)
 笹野遼平 (名古屋大学)
 貞光九月 (フューチャー株式会社)
 佐藤敏紀 (LINE株式会社)
 数原良彦 (Recruit Institute of Technology)
 高村大也 (産業技術総合研究所/東京工業大学)
 土田正明 (株式会社コトバデザイン)
 徳永拓之 (LeapMind株式会社)
 二宮崇  (愛媛大学)
 羽鳥潤  (株式会社 Preferred Networks)
 藤田早苗 (日本電信電話株式会社)
 牧野拓哉 (株式会社富士通研究所)
 松崎拓也 (名古屋大学)
 松林優一郎(東北大学)
 ミハウ・プタシンスキ(北見工業大学)
 村脇有吾 (京都大学)
 若木裕美 (ソニー株式会社)
===============================================