日本データベース学会

dbjapanメーリングリストアーカイブ(2019年)

[dbjapan] DBSJ Newsletter Vol. 12, No. 6: KDD2019, IJCAI2019, VLDB2019, RecSys2019参加報告, VLDB2020への道


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2019年10月号 ( Vol. 12, No. 6 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では8,9月に開催されました国際会議参加報告4件,ならびにVLDB2020
に向けた連載記事をご寄稿いただきました.国際会議に関しましては,8月
に開催されたKDD2019およびIJCAI2019およびVLDB2019,9月に開催された
RecSys2019についてご報告いただきました.

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する
内容についてのご意見がございましたらnews-com [at] dbsj.orgまで
お寄せください.

                                日本データベース学会 電子広報委員会
                                     (担当編集委員 丸橋 弘治)

========================================================================

----
目次
----
1.KDD2019 参加報告
  大川 真耶(NTTサービスエボリューション研究所)

2.IJCAI2019 参加報告
  赤崎 智(東京大学)

3.VLDB2019 参加報告
  杉浦 健人(名古屋大学)

4.RecSys2019 参加報告
  佃 洸摂(産業技術総合研究所)

5.VLDB2020への道(その4)
  北川 博之(筑波大学),天方大地(大阪大学),佐々木勇和(大阪大学)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


■1■ KDD2019 参加報告
大川 真耶(NTTサービスエボリューション研究所)

2019年8月4日から8日まで開催されたACM SIGKDD Conference on Knowledge Discovery
and Data Mining(KDD)2019に参加してきました.KDDはデータマイニング分野のトップ
カンファレンスで,第25回目となる今年は米国アラスカ州の最大都市アンカレッジで
開催されました.

論文はResearch TrackとApplied Data Science Trackに別れて投稿されます.Research
Trackには去年の20%増となる1179件の論文投稿があり,174件が採択されました(採択率
: 14.7%).Applied Data Science Trackの採択率は20.7%(145/700)でした.今年は
51カ国から3510人の参加登録があったとのことで,人気の講演には500人以上の聴衆が詰
め掛けるほどの盛況ぶりでした.また,スポンサーからの協賛金は1億円を超え過去最高
を記録したとのことで,産業界からの関心の高さが伺えます.

KDD 2019の主なトピックとしては,(1)データサイエンスの倫理と社会的影響 と(2)ヘル
スケアへの応用 が挙げられます.(1)に関しては,Research Trackにおいて匿名化デー
タの活用や公平性をテーマとする研究が多数発表されていた他,公平性を主題とするパ
ネルディスカッション・ワークショップ・チュートリアルが開催されていました.
また,関連して,Research Trackの「Interpretability」セッションを中心に説明可能
性に焦点を当てた研究が多く見られました.一方,(2)に関しては,Research Trackの
「Mining in Emerging Applications」セッションを中心に医療データを用いた研究が多
数発表されていました.また,Peter Lee(Microsoft)による基調講演もヘルスケアに
関するものでした.技術のトレンドとしては引き続き深層学習が人気なようです.他に
も20以上の招待講演,30以上のワークショップ,40以上のチュートリアルが並行して開
催されており,一人では見切れないほどの充実ぶりでした.

私は Research Trackで「Deep Mixture Point Processes: Spatio-temporal Event
Prediction with Rich Contextual Information」という題目で発表しました.これは,
画像や文章等の非構造化データを補助情報として活用することで高精度な時空間イベン
ト予測を行う手法に関する研究です.実は,本研究はAAAI 2019でRejectされた内容を改
良したものです.KDD 2019への投稿にあたっては,実験設定を追加し,より詳細な実験
結果の定性分析を行いました.その甲斐あってか,KDDの査読において実験設定の妥当性
と分析結果の面白さが評価され,今回の採択に至りました.

KDD2020は,米国カリフォルニア州のサンディエゴで2020年8月に開催されます.ぜひ参
加を検討されてみてはいかがでしょうか.

(大川 真耶 NTTサービスエボリューション研究所)



■2■ IJCAI2019 参加報告
赤崎 智(東京大学)

2019年8月10日から8月16日まで中国のマカオで開催されたIJCAI2019(the 28th
International Joint Conference on Artificial Intelligence)に参加しました.本会
議はAAAIと並ぶ人工知能を対象とした総合的なトップ国際会議で,機械学習やエージェ
ント,画像処理や自然言語処理といった様々な分野の研究が発表されます.本年度はメ
イントラックに4752件の論文が投稿され,そのうちの850件が採択されました(採択率
17.8%).人工知能に関連する会議の論文投稿数は近年大幅に増加する傾向にあり,本年
度のIJCAIも例に漏れず昨年度の3470件から1282件(37%)の増加となりました.国別の採
択数を見ると,開催国の中国が最多の327件(38%)を占め,次いでアメリカが169件(20%)
,ヨーロッパ諸国が152件(18%)でした.日本からの採択は18件(2%)と,全体から見ると
少ない結果となりました.

最初の3日間は38件のワークショップおよび33件のチュートリアルが開催されました.い
ずれも冒頭で述べた機械学習やエージェント等の小分野の諸問題に関心を寄せたものが
中心で,例としては近年ホットトピックとなりつつある説明可能な人工知能についての
ワークショップ(https://sites.google.com/view/xai2019/home )や,変わり種として
は研究のreproducibilityについてのチュートリアル
https://folk.idi.ntnu.no/odderik/IJCAI19-Tutorial/ )がありました.多くのワー
クショップ,チュートリアルで当日のスライド等が公開されていますので興味がある方
は各ウェブサイトを確認することをお勧めします.

残りの4日間はメイントラックで,冒頭で述べた850件の採択論文の発表がありました.
このメイントラックの発表を聞いていて感じたのが,機械学習や画像処理,自然言語処
理だけでなく情報検索やレコメンデーションの分野にもニューラルネットワークの技術
が浸透しつつあることです.同時に,前者のすでにニューラルネットワークが浸透した
分野の研究には一種の疲弊した空気を覚えました.というのも各タスクの性能向上に伴
いモデルのネットワークや付随する技術がどんどん複雑になっており,1ポイントの性能
向上でも結構な労力がかかるようになっているからです.ニューラルネットワークは現
在まで各タスクの性能向上にめざましく寄与してきましたが今後はどうなるのでしょう
か.私自身も,近年ニューラルネットワークの浸透が顕著な自然言語処理分野を対象と
して研究を行なっていますが,それを含む諸分野が今後どのように発展していくのか気
になるところです.

最後に私がメイントラックで発表した論文の内容について簡単にご紹介します.題目は
“Early Discovery of Emerging Entities in Microblogs”で,内容はTwitter等のマイ
クロブログに出現する作品や人,イベントや会社などの新しいエンティティを素早く発
見するものです.本手法は新エンティティが最初に現れる時のコンテキストに着目し,
それらを含む投稿とそうでない投稿を遠距離教師あり学習の技術により効率的に収集し
たのち,それらの投稿を用いて新エンティティを発見する系列ラベリングモデルを学習
します.実験では本手法が有名映画やイベント等の著名な新エンティティだけでなく,
出現頻度が少なく手がかりに乏しいロングテールな新エンティティもたくさん発見でき
ること,また新エンティティがWikipediaに登録されるより平均して1年以上早く発見で
きることを示しました.

次回のIJCAI2020は日本の横浜にて開催されます.来たる東京オリンピックが開催される
記念すべき年でもあるため,日本からもより多くの投稿と参加があることを期待しつつ
結びといたします.

(赤崎 智 東京大学 情報理工学系研究科)



■3■ VLDB2019 参加報告
杉浦 健人(名古屋大学)

2019年8月26日から30日にかけてアメリカ合衆国のロサンゼルスで開催されたVLDB2019
(45th International Conference on Very Large Data Bases)に参加いたしました.
DB分野の三大会議の一つであるVLDBは論文誌PVLDBに採択された論文が発表されるという
特徴がありますが,今回の会議はPVLDB採択の時点で興味を持った論文が数多くあり,個
人的にとても有意義な会議参加となりました.

今回のVLDBは会議本体・ワークショップ合わせて960名の参加者がおり,かなり多くの人
が参加している印象でした.参加者層は開催地がロサンゼルスということもありアメリ
カのみで半数以上を占めており,続いて中国,ドイツが続くという割合でした.研究論
文については投稿数677件に対して採択数128件(採択率約18.9%)と,過去4年間と比較
するとやや投稿数が減少したもののほぼ例年通りとなっています.投稿トピックはやは
り機械学習やデータマイニングに関わるものが多く,問合せ最適化やグラフ処理がそれ
らに続きました.特筆すべき点としては,分散処理・クラウドに関する論文は投稿数22
件に対して10件の採択とかなり高い採択率となっており,分散環境での実装・実験含め
一つの論文に落とし込める力が表れているのではないかと感じます.

今年のVLDBのBest PaperにはPingcheng Ruanらによる”Fine-Grained, Secure and
Efficient Data Provenance on Blockchain Systems”が選ばれました.こちらに関して
概観を述べると,ブロックチェーンシステムにおいてデータの履歴や起源を効率的に参
照可能とするデータ構造を提案した研究になります.履歴を参照するためのハッシュポ
インタや効率的な参照のためのスキップリストをMerkle Tree内に上手く入れ込んでおり
,ブロックチェーンの改ざん防止の性質を保ったまま起源の追跡を実現しています.ま
た,詳細は省きますが次点のHonorable Mentionとしては” Declarative Recursive
Computation on an RDBMS, or, Why You Should Use a Database For Distributed
Machine Learning”という論文が選ばれました.

基調講演は3件あり,M. Tamer Ozsu先生によるグラフ処理の概観を述べる講演,Tova
Milo先生によるストレージの容量を超え日々増大するデータに対していかに適切に対処
するか述べた講演,Eric Iverson氏によるHollywoodでのデータ活用に関する講演が行わ
れました.特に興味深かったのは1件目のM. Tamer Ozsu先生によるグラフ処理に関する
講演で,RDFエンジン・グラフDBからグラフのストリーム処理まで,幅広い内容が語られ
ました.また,今後の研究の方向性として,アルゴリズムの提案のみでなくシステムと
密接したデザインの必要性や大規模グラフにおけるパフォーマンスやスケール性の重要
さを述べられました.なお,1件目と2件目の講演についてはVLDB2019のHPでスライドが
公開されているため,興味のある方はぜひ御覧ください[1].

最後に,ご存じの方も多いかと思いますが,来年のVLDB2020は東京での開催となります
.DB分野のトップ会議に国内で参加できる貴重な機会となりますので,投稿や発表を
含め多くの方々が参加できればと思います.

[1] VLDB 2019 - Program Schedule - Keynote Speakers:
"https://vldb.org/2019/?program-schedule-keynote-speakers"

(杉浦 健人 名古屋大学 大学院情報学研究科)



■4■ RecSys2019 参加報告
佃 洸摂(産業技術総合研究所)

9月16日から20日までコペンハーゲンにて開催されたThe 13th ACM Recommender Systems
Conference(RecSys2019)に参加してきました.RecSysは情報推薦に関するトップカン
ファレンスで,今回が13回目の開催となります.参加者は過去最多の850人で,そのうち
企業からの参加者が73.4%もの割合を占めていました.論文の採択率はロングが19%,シ
ョートが24%で,国別では日本からは4番目に多い4本の論文が採択されていました(1位
は21本でアメリカ,2位は8本で中国とドイツ).850人もの参加者がいるにも関わらず,
全てのセッションがシングルセッションになっているのがRecSysの特徴です.情報推薦
という比較的絞られた分野に特化した会議だからこそ実現できることだとは思いますが
,様々なトピックの最新の動向を俯瞰でき,発表内容についてどの参加者とも意見や感
想の交換ができるという点で個人的にはとても好きなスタイルでした.

今年のRecSysにおける最大の話題は,ベストペーパーに選ばれた「Are We Really
Making Much Progress? A Worrying Analysis of Recent Neural Recommendation
Approaches」ではないでしょうか.情報推薦分野でも,他の分野の例に漏れず,ここ数
年で深層学習を用いた手法が多数発表され,従来手法に比べて高い精度を示すことが報
告されてきました.この論文では,深層学習を使った手法によって本当に推薦精度が向
上しているのかという疑問を投げかけ,残念ながら否定的な結論が出た,という内容に
なっています.具体的には,KDD,RecSys,SIGIR,WWWで発表されたtop-n推薦を扱った
18の手法を対象にしていますが,論文の著者に連絡をとっても,そもそも実験結果を出
すところまでできた(ソースコードと実験で使われた1件以上のデータセットの両方が手
に入った)手法が7件しかありませんでした.ちなみに,RecSysで発表された手法が18件
中7件と最も多かったのですが,実験結果を出せたのは7件中1件だけと,どの会議よりも
割合が低かったので,そのことが紹介されると会場の聴衆も思わず苦笑い,という感じ
でした.結果を出せた7件についても,6件はパラメータチューニングをしたKNNベースの
古典的な手法に負けており,残りの1件も評価指標によっては深層学習でない線形な手法
に負けるという結果でした.各手法の元論文では提案手法が最も高い精度を出していた
理由として,提案手法だけハイパーパラメータのチューニングをして比較手法ではして
いない,ランダムにサンプリングされるはずのテスト用データに明らかにバイアスがか
かっている,エポック数がテストデータを使って決められている,など実験における様
々な不備が指摘されていました.論文は下記のURLから無料で読むことができます.手法
の詳細には立ち入っていないので専門的な知識が無くても読めますし,手法ごとにサブ
セクションを設けて各手法の実験設定における不備を次々と明らかにしていく3章は読み
物としても面白いので,ぜひ読んでみてください.
https://dl.acm.org/citation.cfm?id=3347058

私は「DualDiv: Diversifying Items and Explanation Styles in Explainable Hybrid
Recommendation」というタイトルでショートペーパーに採択され,ポスター発表を行い
ました.この論文では,ユーザにアイテムを推薦する際に,アイテムの多様化に加えて
,推薦理由も多様化するための手法を提案しています.どういった推薦理由が好まれる
かはユーザによって異なるため,推薦理由を多様化することで,どんなユーザでも少な
くともひとつは好みの推薦理由を持ったアイテムを見つけられるような推薦システムの
実現を目指しています.最近はサービス上での推薦理由の提示に力を入れている企業が
多いため,特に企業の方が高い関心を持ってポスターに来てくれました.より詳細な内
容は下記のURLで紹介していますので,ご興味のある方はご覧ください.
http://ktsukuda.me/research_topic/dualdiv/

来年のRecSysは9月にブラジルのリオデジャネイロで開催されます.論文の締め切りは4
月であることがアナウンスされていたので,ぜひ投稿をご検討ください.

(佃 洸摂 産業技術総合研究所)



■5■ VLDB2020への道(その4)
佐々木勇和(大阪大学),天方大地(大阪大学)

第4回目となるVLDBL2020への道では,VLDB2020の組織委員長である北川博之先生(筑波
大学)にVLDBへの思いをご寄稿頂きました.

===============
1977年10月,私の研究者人生の中で今でも強く印象に残っている国際会議の一つが東京
で開催された.それは第3回大規模データベース国際会議(VLDB77)である.VLDB77の
開催場所は港区芝公園の機械振興会館で,当時,私は東京大学理学部物理学科の4年生
であった.

その頃はまだ情報は学問分野としてまだ十分確立しておらず,東京大学においても情報
科学科はなく,情報の研究をしたい場合は物理学科か数学科に所属して,数コマ分だけ
設定された貴重な情報関係の科目以外は物理学か数学を勉強した上で,大学院で本格的
に情報科学分野の研究指導を受けるというカリキュラムが設定されていた.

私はちょうど卒業研究の最中で,大学院で指導を受ける予定の國井利泰先生(当時,情
報科学研究施設の助教授)の研究室に所属していた.國井先生は,もともとはグラフィ
ックスを中心に研究されていたが,グラフィックス分野にとどまらず時代の先端を行く
新たな分野を意欲的に開拓されていた.第3回VLDBということからも分かるように,デ
ータベースも最先端の新しい分野の一つであった.当時実用の中心であったCODASYL型や
階層型のDBMSを中心にその機能を解説した書籍はあったものの,その後主流となるリレ
ーショナルモデル,問合せ処理,トランザクション処理等を学問的な視点で解説した教
科書はまだ世の中に存在していないような時代であった.

私が会場係として初めての国際会議としてVLDBを経験することになったのは,國井先生
がVLDB77のGeneral Conference Chairを務められていたことによる.会議録を見返して
みると,C. Bachman,P. Chen,M. Stonebraker,R. Fagin等のこの分野でその名を知ら
ない研究者はいない超有名人が出席していた.日本からも,故上林彌彦先生,故穂鷹良
介先生をはじめ,牧之内顕文先生,鈴木健司先生,田中克己先生,田中譲先生等,我が
国のデータベース界を代表する諸先生,諸先輩方が研究発表されていた.学部生の私は
,技術的な発表内容はほとんど理解できなかったものの,国内外の研究者が時には真剣
勝負でディスカッションし,時には和気あいあいと仲良く振る舞う姿を見て,国際会議
とはこういうものなのかと何となく分かったような気分であった.

10月のVLDBが無事終わり,会議の余韻にひたりながら,いよいよデータベース関連の卒
業研究をと思っていたある日,國井先生から提案されたのは思いもかけずソフトウェア
工学に関する研究テーマであった.当時,ソフトウェア工学はデータベースよりもさら
に新しい分野として立ち上がりつつあった.4年生の私は,その提案にしたがってソフ
トウェア工学のテーマで卒業研究を行った.幸いなことに,私がまとめた卒業論文をも
とにした記事が,その後当時出版された情報系の雑誌bit(共立出版)の特集号に掲載さ
れ,私の研究は日の目を見る形になり嬉しかった.とはいうものの,私の中ではVLDB77
で感じたデータベース分野の熱気が頭から離れず,大分悩んだ末に,その気持ちを思い
切って國井先生に伝えた.そして,大学院ではめでたくデーベースをテーマに研究を始
めることとなった.

そこがスタートとなった私のデータベース分野での研究生活では,折々の場面でVLDBが
登場してくる.日本での第2回目の開催となった京都国際会議場でのVLDB86でのシーン
,牧之内先生が中心となってVLDB2000を福岡に招致しようとして活動したこと等も思い
出される.もし大学院進学後もソフトウェア工学の分野で研究を進めていたら,今とは
かなり異なる研究人生になっていたことは容易に想像できる.私もいよいよ定年が間近
に迫る年齢まで到達した.これまでデータベース分野での研究で様々な先生方や大勢の
仲間との出会いがあり,多くを学んだ.今日,ビッグデータやそれを基盤とする機械学
習やAIが注目され,世界を変える大きな原動力となっている.データがあらゆる学問,
人間活動の源泉であることは広く認識されつつあるが,データベースこそがその根幹と
なる技術である.私がデータベース研究をやりたいと思った際はそのような認識は全く
なかったが,結果的にこのようなエキサイティングな研究分野に携わっているのは本当
に研究者冥利に尽きる.VLDB77の経験がなければデータベース分野とも生き別れになっ
ていた可能性も大である.VLDB2020は第46回目のVLDBとなる.最近のVLDBはVLDB77当時
とは規模,論文内容,位置づけ等あらゆる面で大きく異なるが,脈々とVLDBという国際
会議が承継されてきたことは大変に素晴らしいことである.折しも,VLDB2020の組織委
員長を仰せつかり,日本で3回目,東京で2回目の開催となるVLDBの成功に向け,最後の
頑張りどころと考えている.VLDBへの恩返しの良い機会を頂戴できたことに感謝したい.
===============

北川 博之(筑波大学)
天方大地(大阪大学)
佐々木勇和(大阪大学)



---
株式会社富士通研究所
人工知能研究所
丸橋弘治
博士(工学)
maruhashi.koji [at] jp.fujitsu.com