dbjapanメーリングリストアーカイブ(2019年)
[dbjapan] 情報処理学会 第241回自然言語処理研究会 参加募集 (開催8/29-8/30)
- To: dbjapan [at] dbsj.org
- Subject: [dbjapan] 情報処理学会 第241回自然言語処理研究会 参加募集 (開催8/29-8/30)
- From: Yasutomo Kimura <kimura [at] res.otaru-uc.ac.jp>
- Date: Thu, 1 Aug 2019 14:26:16 +0900
日本データーベース学会の皆様, 小樽商科大学の木村と申します. 8月29日(木),30日(金)に小樽商科大学で開催します第241回自然言語処理研究会の参加募集の案内をお送りします. 第241回NL研究会(8/29-30@小樽)はNLP若手の会(8/26-28@札幌)と連続で開催します. 皆様のご参加をお待ちしております. 8月29日の夜には懇親会を予定しています. 参加を希望される方は下記案内中のフォームからご回答下さい. ----------------------- 情報処理学会 第241回自然言語処理研究会 参加募集 https://nl-ipsj.or.jp ●日程: 2019年8月29日(木),30日(金) ●会場: 小樽商科大学 5号館 470号室 (〒047-8501 北海道小樽市緑3丁目5-21) アクセス https://www.otaru-uc.ac.jp/access/ キャンパスマップ https://www.otaru-uc.ac.jp/summary/campus_map/ ●懇親会: 8月29日に懇親会を開催する予定です. 参加を希望される方は8月18日(日)までに下記フォームにご回答ください. https://forms.gle/CdVku8geGm9CjmPD7 ●問い合わせ先: 木村泰知(小樽商科大学) E-mail: kimura (at) res.otaru-uc.ac.jp =========== 8月29日(木) 発表15件 [10:00-11:40] 翻訳・意味・知識獲得 (4件) [11:40-13:10] 昼休み [13:10-14:25] 情報抽出 (3件) [14:25-14:40] 休憩 [14:40-15:55] 分散表現・意味 (3件) [15:55-16:10] 休憩 [16:10-17:25] 生成・解析 (3件) [17:25-17:40] 休憩 [17:40-18:30] 知識獲得 (2件) 8月30日(金) 発表14件 [09:00-10:15] 機械翻訳 (3件) [10:15-10:30] 休憩 [10:30-11:45] 機械翻訳 (3件) [11:45-13:15] 昼休み [13:15-14:55] 言語処理応用(4件) [14:55-15:10] 休憩 [15:10-16:50] 言語処理応用 (4件) [16:50-17:05] 休憩 (集計) [17:05-17:20] クロージング ※若手奨励賞の対象者には著者名の前に「〇」を付けています. 8月29日(木) 発表15件 [10:00-11:40] 翻訳・意味・知識獲得 (4件) (1) 事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳 今村賢治(国立研究開発法人 情報通信研究機構), 隅田英一郎(国立研究開発法人 情報通信研究機構) 本稿では,事前訓練済みのBERT (Bidirectional Encoder Representations from Transformer)モデルをTransformerベースのニューラル機械翻訳(NMT)に適用する.単言語のタスクと異なり,NMTの場合,BERTのモデルパラメータ(訓練済み)に比べ,デコーダー(未学習)のパラメータ数が多い.そこで,まずBERTエンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する2段階最適化を行う.実験では,直接微調整したときにはBLEUスコアが極めて低くなったのに対して,2段階最適化では訓練が成功した.その結果,Transformerの基本モデルや,モデル構造が同じ事前訓練なしのTransformerに比べてもBLEUスコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された. (2) 共起情報を利用した不具合事象の同義表現獲得 川村晋太郎(株式会社リコー) 製造業の品質保証業務において,不具合の原因究明,対策内容検討や再発防止に活用する為,コールログ,保守記録,保守ナレッジ共有サイトなどの多様な情報から解決の糸口になりそうな過去の情報を活用している.数百万件規模の多様なデータから所望のデータを検索する際に,その検索精度を向上させる為,対象製品の部品名,箇所名や不具合現象などの同義(言い換え)表現を得る必要がある.同義表現については,コーパス全体から分布仮説に基づいた類似性指標(コサイン類似度など)で獲得する手法がよく知られているが,同じ単語の同義表現であっても,実際に文書内で使用される言い回しや表現方法は,不具合事例により異なることも多い.本稿はこのような同義表現獲得の問題点に鑑み,ある単一の用語に対する同義表現を獲得するのではなく,不具合やトラブルを表す"事象"の表現が「箇所名+現象名」で成り立つことに着目し,それらをセットにした際の互いの関連度・共起度によって,「箇所名」及び「現象名」の同義表現を同時に獲得していく手法の開発を試みた. (3) 対話システムが積極的な情報提供をするための推薦知識獲得 福原裕一(情報通信研究機構 データ駆動知能システム研究センター), 水野淳太(情報通信研究機構 データ駆動知能システム研究センター), 門脇一真(情報通信研究機構 データ駆動知能システム研究センター), 飯田龍(情報通信研究機構 データ駆動知能システム研究センター), 鳥澤健太郎(情報通信研究機構 データ駆動知能システム研究センター) 対話システムで「ステーキをおいしく焼くにはお肉は常温に戻しておくことをお勧めします」や「ウール素材のお手入れにはブラシをまめに行うことを勧めます」といったユーザに役立つ情報を提供するためには、このような推薦対象(例「ステーキをおいしく焼く」)と推薦情報(例「お肉は常温に戻す」)から成る推薦知識を大規模に獲得することが重要となる。本研究では、まずWeb文書から推薦知識の候補として抽出した最大2文を対象に、推薦対象とその対象に関する推薦情報が含まれるか否かをBERTを用いて分類する手法を開発した。さらに、この手法で得られた推薦知識を対話システムを通じてコンパクトにユーザに提示するために、推薦知識を要約する手法をpointer-generator networkを用いて開発した。これらの手法を学習・評価するために、推薦知識分類のためのデータとして58,978件、推薦知識要約のためのデータとして19,647件を人手でアノテーションして作成した。評価実験の結果、推薦知識分類の性能として平均精度約94%、推薦知識要約の性能としてROUGE-2 F値で約76%を得た。 (4) NPCMJに対する述語項構造シソーラスの意味役割と概念フレームの付与 竹内孔一(岡山大学), Batler Alastair(弘前大学), 長崎郁(国立国語研究所), Prashant Pardeshi(国立国語研究所) ダウンロード可能な形で,日本語のテキストに対して構文木を付与しているNPCMJに対して,述語項構造シソーラスの意味役割と概念フレームを付与するプロジェクトをスタートした.本発表では,アノテーションの枠組と体制,意味役割および概念フレーム付与における問題点を整理しつつ,今後の見通しについて説明する. [13:10-14:25] 情報抽出 (3件) (5) 議会会議録に含まれる法律名の表記揺れ問題解決に向けたエンティティリンキングの試み 〇桧森拓真(北海道大学大学院情報科学院), 木村泰知(小樽商科大学), 荒木健治(北海道大学大学院情報科学研究院) 国会では,委員会や本会議において法律案に関する議論が行われている.数多くの議員が法律案の名称を何度も発言することから,法律案の名称は,省略されることや異なる表現で呼ばれることがあり,同一の法律案を示しているのかを判断することが困難な場合がある.例えば,「働き方改革法案」には「働き方改革関連法」「働き方改革一括法」などの表記揺れが存在する.そこで,本研究では,議会会議録に含まれる法律名の表記揺れの問題を解決するために,エンティティリンキングを行う.提案手法では,メンションの各候補エンティティと、メンションを含む1文の分散表現とのコサイン類似度を計算し,メンションとエンティティの類似度に加算したスコアをもとにエンティティの決定を行う.実験では,辞書ベース,Wikipediaの分散表現(Wikipedia2Vec)をベースラインとし,提案手法との比較を行う. (6) トピック間の相関を考慮したGaussian LDAの構成 〇吉田崇裕(東京大学大学院情報理工学系研究科), 久野遼平(東京大学大学院情報理工学系研究科), 大西立顕(東京大学大学院情報理工学系研究科) 近年トピックモデルは自然言語処理など多くの分野で用いられている.トピックモデルとは,トピックという潜在的な構造をデータから推定することによって,文書などの持つ意味をとらえる手法であり,その中でも特に有名なもののひとつにLatent Dirichlet Allocation(LDA)がある.そして,LDAの提唱後,様々なLDAの改良モデルが提案されており,その中でも単語の分散表現を利用したGaussian LDAと呼ばれる手法が注目を集めている.また,LDAにはトピック間の相関を考慮できないという欠点があるが,それを改善する形でPachinko Allocation Model(PAM)などのLDAの拡張例が提案されている.本稿では,PAMの手法に習い,Gaussian LDAにおいてトピック間の相関を考慮するモデリング・推論手法を提案する. (7) 辞書を用いたコーパス拡張による,化学ドメインDistantly Supervised固有表現抽出 〇辰巳守祐(奈良先端科学技術大学院大学), 後藤啓介(理化学研究所 革新知能統合研究センター), 進藤裕之(奈良先端科学技術大学院大学), 松本裕治(奈良先端科学技術大学院大学 / 理化学研究所 革新知能統合研究センター) 化学ドメイン固有表現抽出では,学習データのアノテーションコストが極めて高く,学習データ確保が課題である.この問題の打開策として,人手を介さずにアノテーションする,Distantly Supervised固有表現抽出の研究が注目されている.ただ,当手法では,自動生成コーパスが全ての化学物質名を網羅するのが困難な為,未知語問題が生じる.そこで,本研究では辞書を用いたコーパス拡張を提案する.人手アノテーションコーパスであるChemdNERでの評価実験の結果,提案データによる学習モデルがベースラインを上回った. [14:40-15:55] 分散表現・意味 (3件) (8) グラフニューラルネットワークを用いた半教師あり語義曖昧性解消 〇谷田部梨恵(茨城大学大学院理工学研究科情報工学専攻), 佐々木稔(茨城大学工学部情報工学科) 単語の語義曖昧性解消は,今日に至るまで様々な研究が行われており,教師あり学習を用いることで高い精度を出している.先行研究では,このアプローチにおける識別誤りの主要な要因として学習用のデータ不足を挙げている.そのため,精度を向上するためにはさらに多くの用例文の追加が求められている.しかし,学習用のデータを新たに追加することは,語義識別に精通した専門家による正解ラベル付与が必要となるためコストがかかるという問題がある.そこで,本研究ではグラフニューラルネットワークを用いた半教師あり語義曖昧性解消手法を提案し,提案手法が語義識別精度の改善に有効であることを目指す. (9) 鏡映変換に基づく埋め込み空間上の単語属性変換 〇石橋陽一(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 本研究では鏡映変換に基づく埋め込み空間上の単語の属性変換を提案する。自己相互情報量(PMI)に基づく単語埋め込みは、``king - man + woman = queen'' といったアナロジーが成立することが知られている。このアナロジーを用いて入力単語xをmanからwomanに、またwomanからmanに変換することが可能である。一方、アナロジーによる変換はxが男性か女性かどうかで演算が変わるため、xの属性に関する知識が必要となるが、そのような知識は無数にあるため全て付与することは不可能である。そこで本研究では、属性知識を用いず単語属性を変換するため、理想的な性質を持つ写像である鏡映変換を導入する。鏡映変換は同じ写像でベクトルの位置を相互に反転させる変換であるため、入力単語ベクトルが目的の属性を持つかどうかにかかわらず変換できる。性別属性を変換する実験の結果、提案手法は属性の知識を用いることなく、性別単語を45.8%の精度で相互に変換できることが示された。また性別属性を持たない単語に鏡映変換を適用した結果、最大で99.9%が変換されず、鏡映変換は目的属性を持つ単語のみを変化させる非常に高い安定性を持つことが示唆された。 (10) Long Short-Term Memory に基づくRecurrent Auto-Encoder を用いた文の分散表現獲得手法に対する Attention 機構の導入 〇飯倉陸(大阪府立大学), 岡田真(大阪府立大学), 森直樹(大阪府立大学) 近年,計算機の著しい発達に伴い,言葉や画像といった離散的な記号概念の分散表現を獲得する研究が盛んになされている.得られた分散表現は人工知能研究におけるさまざまなタスクに対して適用されるが,その精度は分散表現の性能に大きく依存する.それゆえに,分散表現の性能向上は人工知能研究の発展のために極めて重要な事項であるといえる.自然言語処理の分野においては現状として,単語の分散表現獲得手法については Word2Vec のような複数のタスクに対して高い性能が認められている優れた手法が開発されている.その応用として,文の分散表現の獲得手法に関するいくつかの先行研究が存在するが,いまだに決定的な手段は確立されているとは言い難い.本研究では,既存の文の分散表現獲得手法の改良を目的として,Long Short-Term Memory に基づく Recurrent Auto-Encoder を用いたモデルに対してAttention 機構を導入した.そして獲得した分散表現を用いた文の連続性識別の実験を通して,それらの性能を Attention 機構の有無の観点から相対的に評価した.その結果,文章の連続性を考慮するという観点から,分散表現の性能向上を確認することができ,Attention 機構を導入することの有効性を示せた. [16:10-17:25] 生成・解析 (3件) (11) 与えた外部情報の再予測モデルを組み込んだニューラル文生成モデルの検討 〇隆辻秀和(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 言語生成は、与えられた外部情報のセットに対して、自然言語文をドメインに適当な形で生成するタスクである。近年、言語生成に用いられるニューラルネットワークを用いた手法は、より自然で柔軟な応答生成が実現できることが知られている。一方で、入力となる外部情報に対応する文生成を単語予測のモデルで行うため、モデルがどの情報を利用し文を生成したかを説明することが難しい。そこで本研究では、与えた外部情報を生成文に反映することを保証するため、与えた外部情報を再予測するモデルと再予測の結果に対する損失を利用した。アノテーション済みのコーパスを用いた実験を行い、生成された文の評価と、生成文に含まれる情報の精度評価を行った。 (12) 因果関係と事態分散表現を用いた雑談対話応答のリランキングにおける傾向分析 田中翔平(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学/科学技術振興機構さきがけ), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 本論文では,対話履歴に対し一貫した多様な応答を選択する手法を提案する.提案手法では対話履歴に対する一貫性を保つため,対話モデルより生成された応答候補を,対話履歴と応答候補の間に存在する因果関係(ストレスが溜まる → 発散する,など)を用いてリランキングする.この際,因果関係の認定には統計的に獲得された因果関係ペアを用いるが,対話中に存在する全ての因果関係を被覆するような辞書を用意することは難しい.そこで,Role Factored Tensor Model を用いて事態を分散表現に変換することで,因果関係知識のカバレージを向上させ,因果関係知識と対話中の因果関係の頑強なマッチングを実現した.自動評価,人手評価の結果,提案手法は応答の一貫性や対話継続性を向上させることが確認できた.一方で,事態の過汎化に由来する応答の自然性低下が見られる場合もあった.これらの問題についても例示し,解決の方向性について論じる. (13) モダリティ表現認識・事象の事実性解析の同時学習 〇友利涼(京都大学 大学院情報学研究科), 村脇有吾(京都大学 大学院情報学研究科), 松吉俊(電気通信大学 大学院情報理工学研究科), 亀甲博貴(京都大学 学術情報メディアセンター), 森信介(京都大学 学術情報メディアセンター) モダリティ表現や事象の事実性などを正確に認識・解析することは、否定や推量などが含まれるテキストの言語理解や文生成を行ううえで重要である。本研究では、モダリティ表現認識器・事象の事実性解析器などをマルチタスク学習の枠組みを用いて同時学習する。これらのタスクは相互に関連しており、マルチタスク学習を用いてその関係性を自動的に学習することを目指す。実験では、同時学習による手法が単純な手法による精度を上回った。また、生コーパスを用いて事前学習することにより、さらなる精度向上を示した。 [17:40-18:30] 知識獲得 (2件) (14) A Simple Reranking Method for Knowledge Graph Completion 〇LU YUXUN(Nara Institute of Science and Technology), Shigeto Yutaro(Chiba Institute of Technology), Hayashi Katsuhiko(Osaka University), Shimbo Masashi(Nara Institute of Science and Technology) A recent report indicates that learning type embeddings of entities in addition to normal embedding helps improve the performance of knowledge graph completion. We argue that the type of arguments individual relations take is inherent in the normal embedding of entities, and this information can be exploited with the help of training data. A simple reranking method is proposed that solely relies on training data and learned entity and relation embeddings. This method requires only four parameters per relation to be tuned on the validation data. Experimental results show that its performance is close to the approach based on type embeddings, although it does not require retraining of embeddings. (15) クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張 〇鈴木正敏(東北大学), 松田耕史(理化学研究所/東北大学), 大内啓樹(理化学研究所/東北大学), 鈴木潤(東北大学/理化学研究所), 乾健太郎(東北大学/理化学研究所) Quizbowlは、複数の文からなるクイズ問題の入力に対して、正解となるエンティティを予測する質問応答タスクである。Quizbowlは超多クラス(数万クラス以上)の分類問題と見なすことができるが、その場合、訓練データの規模が限定的であるためにfew-shot学習の問題が生じる。すなわち、訓練データにわずかな回数しか出現しないエンティティであっても、テスト時には正しく答えなければならない。この問題に対処するため、本研究では、1) 大規模コーパスで事前訓練された言語モデルの利用と、2) Wikipediaを利用したデータ拡張を組み合わせたクイズ解答の手法を提案する。具体的には、1) 汎用言語モデルBERTの複数の層が出力する分散表現を用いて、クイズ問題から正解エンティティへのマッピングを学習する。さらに、2) Wikipediaの記事の性質を利用して、テキスト-エンティティ対のデータを大量に生成し、擬似クイズ問題として訓練データに追加する。これらモデルとデータ両方向の拡張により、Quizbowlのクイズ解答の性能が大幅に向上することを実験的に示す。 8月30日(金) 発表14件 [09:00-10:15] 機械翻訳 (3件) (16) スタイル変換のための折り返し翻訳に基づく事前訓練 〇梶原智之(大阪大学データビリティフロンティア機構), 三浦びわ(株式会社 AI Samurai), 荒瀬由紀(大阪大学大学院情報科学研究科) 本研究では、スタイル変換における少資源問題に取り組む。同一言語内の翻訳問題であるスタイル変換は、機械翻訳とは異なり訓練用のパラレルコーパスを大規模に収集することが難しい。この問題に対して、先行研究ではルールベースのデータ拡張や目的とするスタイルの機械翻訳とのマルチタスク学習が提案されているが、人手や特定のコーパスに依存するため他のスタイルへの拡張が困難であった。そこで我々は、任意のスタイルに適用可能な生コーパスに基づく転移学習のフレームワークを提案する。まず事前訓練では、生コーパスを折り返し翻訳した疑似言い換えコーパスを用いて、スタイルを考慮しない言い換え生成器を訓練する。続いて再訓練では、小規模なパラレルコーパスを用いて、言い換え生成器を目的とするスタイルへのスタイル変換に特化させる。GYAFCデータセットにおける評価実験の結果、提案手法がスタイル・ドメイン・モデル構造のいずれにも依存せず、常にスタイル変換の性能を大幅に改善することを確認した。さらに詳細な分析の結果、高品質な折り返し翻訳を利用できない設定やターゲットドメインの生コーパスを利用できない設定でも提案手法は有効に機能し、再訓練のためのパラレルコーパスが1,000文対と非常に少ない設定でさえ高品質なスタイル変換を実現できることがわかった。 (17) 機械翻訳の前処理のための言い換え辞書自動作成手法の提案 〇胡尤佳(大阪府立大学工学域), 岡田真(大阪府立大学工学研究科), 森直樹(大阪府立大学工学研究科) 近年,ニューラルネットワークを用いる手法が自然言語処理の多くのタスクで成果を上げている.機械翻訳の分野でも,ニューラル機械翻訳が登場し,これまでのフレーズベース機械翻訳や統計的機械翻訳と比べて翻訳の質が飛躍的に上がり,流暢性の高い翻訳もできるようになった.しかし,低頻度語や未知語が存在することにより,翻訳の際に意味が通じなくなるという問題が依然存在している.通常の機械翻訳の場合,出力層における語彙数が制限されているため,低頻度語は未知語(OOV)と見なされ,意味繋がりが中断され,翻訳精度が悪くなる.このような低頻度語や未知語の問題を解決するために,翻訳に前処理をするアプローチがある.先行研究では,学習データの目的言語文に存在する低頻度語を大規模パラフレーズ辞書を用いて高頻度語に言い換えてから翻訳する手法が提案されている.ここでは,目的言語文に低頻度語が存在する場合,その単語またはその単語を含むフレーズを高頻度な単語またはフレーズに言い換えることで,言い換え前後の意味を保持したまま翻訳結果の未知語の削減を求める.ここでは,追加で大規模パラフレーズ辞書が必要となり,パラフレーズ辞書によって言い換えた学習データからの翻訳モデルの作り直しが必要となる.そこで本研究では,作成した機械翻訳のモデルを直接用いて,モデル作成時に用いた学習データからそのままパラフレーズ辞書を自動作成する手法を提案する.その後,その辞書を用いた低頻度語の高頻度語への言い換えを入力文の前処理として施すことにより,意味を保持したまま翻訳精度を向上できると考える.本稿では提案手法の有効性を実験により検証し,考察した. (18) Double Attention-based Multimodal Neural Machine Translation with Semantic Image Region Zhao Yuting(Tokyo Metropolitan University), Komachi Mamoru(Tokyo Metropolitan University), Kajiwara Tomoyuki(Osaka University), Chu Chenhui(Osaka University) Current work on multimodal neural machine translation (MNMT) has mostly paid attention to the effect of combining visual and textual modalities in improving translation performance. However, it has been suggested that the visual modality is only marginally beneficial. As conventional visual attention mechanisms are used to select visual features from grids of equal size in an image generated by convolutional neural net, the feature of a grid that is not related to image content may arise slight effects in aligning visual concepts associated with the textual object. In contrast, we propose to apply semantic image regions for MNMT with integrating visual and textual features by means of two separate attention mechanisms (double attention) in order to improve predictive token generation. Our approach on the Multi30k dataset achieves 0.5 and 0.9 BLEU point improvement on English--German and English--French translation tasks compared with the baseline double attention-based MNMT. [10:30-11:45] 機械翻訳 (3件) (19) 言語横断な言語モデルによる原言語情報を活用した自動機械翻訳評価 〇髙橋洸丞(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 本研究では原言語文と参照訳文から翻訳文がどれだけ正しいかを推定する自動評価手法を提案する. 既存の自動翻訳評価手法では, 1対1の参照訳文と翻訳文のペアから翻訳文を評価する手法が主流だが,本来翻訳は正解が無数にあるはずで, 参照訳文と一見異なる正解文を機械翻訳システムが出力した際に評価が難しくなる.この問題はマルチリファレンスと呼ばれる, 参照訳文を複数用意することで解決可能だが, 各原言語文に対して参照訳文を複数作成するのはコストが高い.そこで本研究では, 原言語文も正解文とみなして評価に用いることで前述の問題を解決する. また, 言語の異なる原言語と目的言語間において文の近さを推定するために, 言語横断な言語モデルで文の近さをベクトル表現にして, 多層パーセプトロンにより最終的な評価値を出力した.本研究の実験結果より, 参照訳だけでなく原言語も翻訳評価に有用であることが示された. (20) 英日同時翻訳のためのConnectionist Temporal Classificationを用いたニューラル機械翻訳 〇帖佐克己(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 同時翻訳は文の入力が終了する前にその文の翻訳を開始するタスクである.このタスクでは翻訳精度と訳出までの遅延時間がトレードオフの関係にあり,システムを構築する際には翻訳を行うタイミングを適切に決定する必要がある.本研究では,ニューラル機械翻訳においてこの訳出タイミングを適当的に決定する方法を提案する.提案手法では目的言語側の語彙に訳出を行わない代わりに出力するためのメタトークン ‘<wait>’ を追加し,損失関数としてConnectionist Temporal Classification(CTC)と呼ばれるアルゴリズムを目的関数に導入する.CTCによって 縮約すると正解系列と一致するような‘<wait>'を含む系列全て に対して最適化を行うことで翻訳モデルと訳出タイミング制御を同時に最適化することができ,さらに訳出タイミングを適応的に決定することも可能となる.また,このモデルを英語から日本語への同時翻訳タスクに対して適用し,その翻訳結果の精度や問題点について検討する. (21) スタイル変換技術による対訳コーパスから英日同時通訳コーパスへの拡張 〇二又航介(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村 哲(奈良先端科学技術大学院大学) 同時通訳とは、入力文章が完結する前に目的言語の部分的な翻訳結果を訳出するタスクである。同時通訳システムを介したコミュニケーションでは、翻訳の遅延が円滑なコミュニケーションの大きな障害となるため、応答速度が早く、正確に部分訳文を生成する必要がある。特に英語のようなSVO型言語特から日本語のようなSOV型言語への同時通訳では、訳出開始までの遅延が大きな問題となる。一方で、入力言語と目的言語の文型が同じであれば、遅延を少なくすることができる。同時通訳システムの学習には通常、機械翻訳システムと同様の対訳コーパスが用いられる。同時通訳された対訳コーパスは、機械翻訳システムの学習に用いられる対訳コーパスと異なり、入力文章が完結する前に目的言語の部分的な翻訳を訳出した結果である。したがって、同時通訳システムの学習に用いられる対訳コーパスとして、同時通訳されたものを用いることができれば、入力言語と目的言語の文型が近くなることが期待されるため、訳出開始までの遅延が少なくなる。しかし、同時通訳における対訳コーパスが不足しているため、このような問題設定は現実的ではない。そこで本稿では、機械翻訳に用いられる対訳コーパスから、同時通訳コーパスへと拡張する手法について提案する。提案手法ではスタイル変換技術を用いることで、機械翻訳のスタイルから同時通訳へのスタイルへと変換を行う。また、スタイル変換技術により生成された同時通訳らしい文章と実際の同時通訳文を比較分析した。 [13:15-14:55] 言語処理応用(4件) (22) BERTを用いたテレビドラマに関する関心動向・感想のウェブマイニング 〇川口輝太(筑波大学), 久保遼馬(筑波大学), 藤田拓也(筑波大学), 前田竜冶(筑波大学), 宇津呂武仁(筑波大学), 小林彰夫(筑波技術大学), 西崎博光(山梨大学), 河田容英(ログワークス) 本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向・感想・レビュー類の情報探索過程を支援することを目的として,ブログ・ドラマ関連サイト等のウェブページからの情報収集・集約を行うウェブマイニング技術を提案する.提案手法においては,BERTおよびWikipediaを用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる. (23) 評価者バイアスを考慮した小論文自動採点手法 〇岡野将士(電気通信大学), 宇都雅輝(電気通信大学) 近年、深層学習モデルを利用した小論文自動採点手法が注目されている。このような自動採点手法では、採点済み小論文コーパスからモデルを学習する。しかし、小論文の採点では、各評点が評価者の特性(甘さ/厳しさなど)に依存することが多く、このような場合、学習される自動採点モデルが評価者特性の影響を受け、得点予測の性能が低下する問題がある。他方で、評価者の影響を考慮してスコアを推定できる数理モデルが近年多数提案されている。本研究では、この数理モデルで得られるスコアを予測するように自動採点モデルを学習する手法を提案する。提案手法を利用することで、コーパスを採点する評価者の特性に依存せず、自動採点モデルを学習できる。本論文では、実データ実験により提案モデルの有効性を示す。 (24) Automated Essay Rewriting (AER): Grammatical Error Correction, Fluency Edits, and Beyond 〇Mita Masato(RIKEN AIP/Tohoku University), Hagiwara Masato(Octanove Labs), Sakaguchi Keisuke(Allen Institute for Artificial Intelligence), Mizumoto Tomoya(Future Corporation), Suzuki Jun(Tohoku University/RIKEN AIP), Inui Kentaro(Tohoku University/RIKEN AIP) We propose the Automated Essay Rewriting (AER) task, where computer systems make automatic edits to argumentative essays to improve their quality. AER subsumes types of edits beyond single sentences such as coherence, cohesion, and style, which are not within the scope of traditional tasks such as grammatical error correction (GEC) and fluency edits. The quantitative and qualitative analyses of a corpus specifically designed for AER reveal that these edits account for almost half of edits made by professional proofreaders. We also discuss the challenges, issues, and future direction of AER by comparing with other tasks. (25) 文符号化器のマルチタスク学習によるテキスト分類モデルの頑健化 〇大橋空(大阪大学大学院情報科学研究科), 高山隼矢(大阪大学大学院情報科学研究科), 梶原智之(大阪大学データビリティフロンティア機構), Chenhui Chu(大阪大学データビリティフロンティア機構), 荒瀬由紀(大阪大学大学院情報科学研究科) 一般的なニューラルテキスト分類モデルは、文をベクトル化する文符号化器と、文ベクトルを基に分類先の各ラベルが付与される確率を計算する分類器からなる。このようなモデルは、特定の単語が出現する文に対し、文意に関わらずその単語との共起頻度が高いラベルに分類しやすくなり過学習しやすい。これは、文符号化器が分類に強く寄与する単語を過度に反映した文ベクトルを生成するためであると考えられる。この課題に対し本研究では、同じ(異なる)ラベルを持つ文同士のベクトルはベクトル空間で近傍(遠方)に位置すべき,という直感に基づくマルチタスク学習手法を提案する。具体的には、共通のラベルを持つ文同士の文ベクトルが類似するように、文符号化器を通常のテキスト分類タスクおよび同一ラベル判別タスクのマルチタスク学習によって訓練する。同一ラベル判別タスクでは、 コーパスからサンプリングした複数の文のうち、どれが入力文と同一のラベルを持つかを判別できるように文符号化器を訓練する。これにより、文符号化に特定の単語が過度に影響するのを抑制し、テキスト分類の性能を改善するような文ベクトルが得られると期待できる。提案手法の有効性を検証するため、単一ラベル分類のデータセット6つ、複数ラベル分類のデータセット3つそれぞれについて、2種類の文符号化器を用いて実験を行い、文書の複数ラベル分類のデータセットについて、1種類の文符号化器を用いて実験を行った。結果より、6つのデータセットについて全ての文符号化器で提案手法がベースラインを上回る精度を達成し、提案手法の有効性が示された。 [15:10-16:50] 言語処理応用 (4件) (26) 機械学習を用いた漫画のオブジェクト順位推定 〇元山直輝(大阪府立大学 工学域), 岡田真(大阪府立大学 工学研究科), 森直樹(大阪府立大学 工学研究科) 近年, 深層学習をはじめとする機械学習技術の発展を背景に, 画像処理と言語処理が密接に結びついたマルチモーダルな分野として漫画に関する研究が注目されている. 漫画は画像データで提供されることから, 画像処理に基づいた研究は数多くなされてきたが, 対話理解にまで踏み込んだ研究はなされてこなかった. 本研究の目的は文脈に基づき会話の連続性を正しく認識することである. コマや台詞の読み順などの読者が物語の文脈を踏まえて解釈する内容に踏み込んだ漫画のストーリー理解に関する研究のためには, 漫画におけるコマや台詞といったオブジェクトの順番についてのアノテーションデータが必要不可欠である. そこで, コマと台詞に順位をつけるアノテーションツールを開発し, 既存の漫画データセットの拡張をした. そして, 文脈を踏まえた漫画の理解の準備として, 座標情報を用いた機械学習によるコマと台詞の順位推定手法を提案する. さらに, 漫画内の文書の言語的特徴について調査し, 自然言語処理の活用の可能性について考察する. (27) 入力音声に続く文章の予測 〇恒松和輝(奈良先端科学技術大学院大学), サクリアニサクティ(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学) 近年の技術の進歩により、音声認識は人間に近い非常に高い性能を示しています。しかし、それらは与えられた音声をただ文字に起こすだけです。人間同士の対話では、発せられた言葉からその後に続く言葉を予測できることがあります。本研究では、深層学習を用いてそのようなタスクを実行できるシステムの構築を目指しています。 (28) 生成型文要約のための抽出性に着目したデータ選択 〇長谷川駿(東京工業大学 工学院), 上垣外英剛(東京工業大学 科学技術創成研究院), 奥村学(東京工業大学 科学技術創成研究院) 生成型文要約は必ずしも原文の語句を抽出する必要がなく,入力に対して極めて柔軟な要約文を生成することが可能である.しかし,我々の事前調査で,最高精度に近い性能を達成している文要約器の出力では,原文から借用した単語が生成文の約8割を占めていることが判明した.一方で,その要約器の学習に用いた訓練データでは,参照文における原文から借用可能な単語は約6割にとどまっている.我々は,これらの調査結果における実際の生成文と訓練データの抽出率の乖離から,既存の生成型文要約器が抽出的な要約を得意としており,抽出率の低いデータ対が学習時のノイズとなっているという仮定を置いた.本研究ではこの仮定に基づき,訓練データから抽出率の低いデータ対を除去する, 容易で効果的なデータ選択手法を提案する.実験の結果,提案手法を用いた場合,全データで学習した場合の約半分のデータ量・学習時間で同等の要約精度を達成できることを確認した.また,訓練データの抽出性・生成性を変化させて学習・比較を行うことで,それらの訓練データの性質が文要約器に与える影響の分析も行った. (29) Extraction of Protein-protein Interactions from Articles based on Hierarchical Recurrent Neural Network with Attention and Tree Structure PhanThuy Thi Thanh (Department of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University), Yamamoto Akihiro(Department of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University) Protein-protein interaction (PPI) extraction from scientific articles is one key issue in biological research. Recent research in this topic concentrates on feature-based and kernel-based methods by using handcrafted features or devising similarity functions. To improve these methods, we propose a novel neural network-based method. We first divide the sentence into three context subsequences based on positions of two entities. Then, we utilize the hierarchical RNN consisting of two bidirectional sequential LSTMs: the first LSTM learns each context representation of the three context subsequences separately, and the second one computes semantic composition of these three representations. Attention mechanism for each LSTM is used to determine which parts of the sentence are the most significant ones. We also combine tree structured LSTM in our model to acquire syntactic knowledge. The experiments demonstrate that our method achieves improved results as compared with the existing methods. [16:50-17:05] 休憩 (集計) [17:05-17:20] クロージング
- Prev by Date: [dbjapan] RE: [dbjapan] 助教の公募(熊本大学 ビッグデータ工学分野)
- Next by Date: [dbjapan] CFP : 情報処理学会論文誌データベース(TOD85)
- Index(es):