日本データベース学会

dbjapanメーリングリストアーカイブ(2021年)

[dbjapan] DBSJ Newsletter Vol.14, No.6: VLDB2021, IJCAI2021, KDD2021, ICML2021参加報告


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2021年10月号 ( Vol. 14, No. 6 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では国際会議VLDB2021、IJCAI2021、KDD2021、ICML2021の参加報告を
ご紹介致します。

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてご意見がございましたらnews-com [at] dbsj.orgまでお寄せください。

日本データベース学会 電子広報編集委員会

(担当編集委員 倉島 健)

===============================================================

----
目次
----

1. VLDB2021 参加報告

   竹之内 啓太 (株式会社NTTデータ)

2. IJCAI2021 参加報告

   西野 正彬 (NTTコミュニケーション科学基礎研究所)

3. KDD2021 参加報告

   大川 真耶 (NTT人間情報研究所)

4. ICML2021 参加報告

   丹羽 健太 (NTTコミュニケーション科学基礎研究所)


===============================================================


■1■ VLDB2021 参加報告

                 竹之内 啓太 (株式会社NTTデータ)

今年の International Conference on Very Large Data Bases(VLDB2021)は
8月16-20日にデンマーク・コペンハーゲンにて開催されました。ただし、
COVID-19 の状況もありオンラインでの参加・発表が認められていました。私は
日本からオンラインで VLDB2021 に参加し、自身の研究について発表を行いま
した。この場を借りて簡単に報告させていただきます。

VLDB はデータベース分野の最難関国際会議のひとつとして知られています。
VLDB の研究トラックで発表するには、論文誌である Proceedings of the
VLDB Endowment(PVLDB)に論文が掲載される必要があります。VLDB2021 の
オープニングセッションによると、PVLDB にはこの一年間で882件の論文が
投稿され212件の論文が採択されました。全体の採択率は24%であり、昨年同様
の低い水準であると言えます。一方で、PVLDB の初回の査読結果が修正依頼
(Major/Minor Revision)になったもののうち、88%がその後採択に至ったと
の報告もありました。PVLDB の査読結果が Reject でなかった場合、レビュー
コメントに丁寧に対応すれば論文が採録されると思ってよさそうです。

VLDB2021 では2つの基調講演がありました。1つ目は、MIT の Tim Kraska 氏
による "Towards instance-optimized data systems" という題目の講演でし
た。この講演は、機械学習を用いることでシステムの性能を引き出すような
アプローチ、いわゆる ML for Systems に関するものでした。特に、実際の
データやワークロードをもとにパラメータを自動的にチューニングする研究に
ついて、講演者自身の経験から得た知見や今後の方向性を述べていました。
2つ目の基調講演は、Max Planck Institute for Informatics の Gerhard
Weikum 氏による "Knowledge Graphs 2021: a Data Odyssey" という題目でし
た。この講演では、これまでのナレッジグラフに関する研究が、データベース
的な考え方(DB thinking)によって支えられてきたことが強調されていまし
た。これらの基調講演のポジションペーパーが VLDB2021 のウェブページにて
公開されています。かなり詳細にまとめられているので、興味のある方は
そちらをご覧ください。

私自身は User Interfaces のセッションにて、"PATSQL: Efficient Synthesis
 of SQL Queries from Example Tables with Quick Inference of Projected
Columns" というタイトルで発表を行いました。この研究は、入出力例から
プログラムを自動生成する Programming by Example という手法を SQL クエリ
に適用したものです。つまり、入出力となるテーブルの例から SQL クエリを
自動生成する手法を提案しました。本手法の特徴は、関係代数において知られる
性質をプログラム合成のアルゴリズムに組み込んだ点にあります。結果として、
既存手法の性能を大きく上回る手法の開発に成功しました。質疑の時間では、
聴講者から5つほど質問をいただき、今後の研究に繋がる着眼点を得ることが
できました。

最後になりましたが、私自身は普段はソフトウェア工学のコミュニティに顔を
出すことが多く、データベース系の国際会議に参加するのは今回が初めてで
した。(DBSJ に入会したのもつい最近です。)今回 VLDB2021 に参加して
みて、産学が連携して課題解決を目指している点や、機械学習の技術を活用
した技術に注目が集まっている点はソフトウェア工学のトレンドと共通して
いると感じました。今後も、研究領域の垣根を意識することなく、幅広く研究
活動を続けていきたいと思っています。機会がありましたらよろしくお願い
いたします。

(竹之内 啓太 株式会社NTTデータ)

---------------------------------------------------------------

■2■ IJCAI2021 参加報告

         西野 正彬 (NTTコミュニケーション科学基礎研究所)

2021年8月19日から8月26日にかけてオンラインで開催されたThe 30th
International Joint Conference on Artificial Intelligence (IJCAI 2021)
に参加しました。本会議は人工知能分野のトップ会議の一つであり、人工知能
に関連する幅広い研究が発表されます。今年度は投稿数4204件のうち587件が
採択され、採択率は13.9%でした。前年の採択率 12.6% と比較すると少し回復
したものの、それでも15%を下回る狭き門となっています。論文の投稿数は
前年の4717件から10%程度減少しました。投稿件数は2019年の4752件をピーク
に減少傾向にありますが、今回は前年の採択率が低かったことも投稿数の減少
に拍車をかけたように感じます。

会議のオープニングでは分野別の採択率も公開されていました。機械学習や
自然言語処理、コンピュータビジョンといった投稿件数が多い分野の採択率が
平均を下回る一方で、プランニングや制約充足、マルチエージェントシステム
といった、いわゆる古典的なAIとよばれる分野の採択率はいずれも20%を
超えるなど、分野によって採択率に大きな差がありました。分野ごとに
採択基準に差をつけているというよりは、歴史的に古典的AI分野の質の高い
論文がIJCAIやAAAIに集まる傾向があるからであるように感じます。実際、
今回のIJCAIのDistinguished Paper (3件) は、すべて古典的AI分野から選出
されました。

今回のIJCAIでは8件の招待講演がありました。いくつか聴講した中で、深層
学習で有名なYoshua Bengioによる"System 2 Deep Learning: Higher-Level
Cognition, Agency, Out-of-Distribution Generalization and Causality"
という講演が印象に残ったので紹介します。タイトルにあるSystem 2 Deep
Learningは、Daniel Kahnemanの著書 "Thinking, Fast and Slow"で提唱され
た二種類の思考方式、System 1 (直感的、高速、暗黙的な知識に基づく思考)
と System 2 (論理的、低速、明示的な知識に基づく思考) に由来します。
現在の深層学習システムは学習データの分布に含まれないデータ
(Out-of-distribution, OOD)に対する予測を苦手としています。一方で人間は
これまで経験したことのない状況に直面しても、適切に対処することができ
ます。この違いは、深層学習システムがSystem 1相当の機能しかもたないから
であるとし、人間のように未知の入力に対処するためにはSystem 2相当の機能
をもつ深層学習システム (System 2 DL)が必要であるとBengioは主張します。
講演では、System2 DLを実現するための近年の試みとして、学習データ中に
存在する因果関係を明示的に学習する方法や独立して存在する動的システムを
学習する方法を紹介していました。これらの方法は、いくつかの因子の組み合
わせの形に分解して知識を学習することで未知の入力にモデルを適応させると
きにも変更が必要な範囲を絞ることができ素早い適応が期待できるそうです。

私達が発表した"Compressing Exact Cover Problems with Zero-suppressed
Binary Decision Diagrams"について紹介します。この研究は厳密被覆問題
とよばれる組合せ問題を解くための探索アルゴリズムに関するものです。
厳密被覆問題の解を高速に見つける既存手法として、TeXの作者としても有名
なDonald Knuthが考案した、Dancing Linksとよばれる洗練されたデータ構造
を用いた探索アルゴリズムが知られていました。私達はDancing Linksと
ゼロサプレス型二分決定グラフ (ZDD) とを組み合わせた、
新たなデータ構造 DanceDDを用いて問題を圧縮して表現することで、
大きな厳密被覆問題において解をより高速に探索する方法を考案しました。
Dancing linksは2019年にKnuthが発表したThe Art of Computer Programming
の最新の分冊 (Volume 4, Fascicle 5)でも200ページ以上にわたって取り上げ
られるなど、ちょっとした盛り上がりを見せています。手前味噌になりますが
私達が以前に発表したアルゴリズムもこの分冊で紹介されていたりします。
Dancing linksというシンプルなデータ構造を用いることでこんなに多様な
問題を解けるなんて、という驚きが詰まった本なのでアルゴリズムやデータ
構造が好きな人ならきっと楽しめるのではないかと思います。

今年のIJCAIはVirtual Chairというプラットフォーム上で開催されました。
前回のIJCAIやAAAIでも同じプラットフォームを利用していましたので、オン
ライン会議のプラットフォームとして定着しつつあるように感じます。発表者
は長め(15分)と短め(2分)のプレゼンテーションを事前に録画するほか、会議
開催期間中に2度のポスター発表を行いました。ポスター発表のスケジュール
はタイムゾーンを考慮したものとなっており、日本からでも無理のない時間帯
に参加することができました。また、会議開催期間中(あるいは終了後も)
いつでもイベント、プレゼンテーションの動画を見ることができたので
自分の予定に合わせて気軽に情報収集することができました。ただ、個人的
には多様な研究が集まるAAAIやIJCAIのすこし混沌としたな雰囲気が好きだった
ので、どうしてもそういった雰囲気を感じづらいオンライン会議は少し寂しく
感じます。

次回のIJCAIはウィーンで開催予定です。論文投稿締め切りは1月上旬の予定
です。もう少し採択率が上がってくれると幾分心安らかに論文を投稿できるの
ですが、減少傾向にあるとはいえ、非常に多い論文投稿数を考えると難しいの
かもしれません。人工知能分野全体の動向を俯瞰することができるよい会議な
ので参加および論文の投稿を検討いただけると幸いです。

(西野 正彬 NTTコミュニケーション科学基礎研究所)

---------------------------------------------------------------

■3■ KDD2021 参加報告

                  大川 真耶 (NTT人間情報研究所)

2021年8月14日から18日まで開催されたKDD 2021 (27th ACM SIGKDD
International Conference on Knowledge Discovery & Data Mining)に参加し
てきました。KDDはデータマイニング・データサイエンス分野のトップカンファ
レンスです。第27回目となる今年はシンガポールで開催される予定でしたが
昨今のCOVID-19情勢を鑑みてオンライン開催に変更になりました。

トピックは基礎から応用まで幅広く、学術的貢献を評価するResearchトラック
に加え、機械学習アルゴリズムの社会実装を評価するApplied Data Science
トラックが併設されています。今年のResearchトラックへの投稿数は1541件で
うち238件が採択されました(採択率15.4%)。投稿数は年々増加傾向にあり
過去最高だった昨年の1279件から約20%増加しています。

5日の開催期間のうち、前半の約2日間がワークショップ(48件)とチュート
リアル(40件)、後半3日間が基調講演(5件)、招待講演、研究発表、パネル
セッション等からなる本会議に充てられていました。今年は57ヶ国から3000名
以上が参加したとのことです。

本会議のResearchトラックは約60のセッションに分かれ、全ての採択論文に
ついてオンラインでの口頭発表とポスター発表が行われました。最も発表件数
が多かったのは「Data Science for Graphs and Networks」で、全60セッション
中13セッションを占めていました。これはGraph neural networkの流行りを
反映しているものと考えられます。その他、「Interpretability and
Explainability」「Fairness and Transparency」についても複数のセッション
が設けられており、説明性・公平性といったトピックへの注目は継続している
ようです。また、COVID-19流行の影響で疫学関連のセッション「Data Science
for Epidemiology」が新設されていました。全体としては、既存手法の組み合
わせで教師ありの設定で精度を競う研究が減り、機械学習モデルの理解を目的
とした研究が増加している印象を受けました。

全5件の基調講演のうち、Jeffrey Ullman教授は「On the Nature of Data
Science」という題目でデータサイエンスの立ち位置(周辺分野との関係)に
関するトークをしていました。データサイエンスは科学と産業の双方に貢献し
うるということ、機械学習はデータサイエンスの重要なパーツではあるが全て
ではないということを強調するとともに、データサイエンス分野で独自に発展
した技術として局所性鋭敏型ハッシュ(LSH)等を紹介していました。

私自身はResearchトラックで「Dynamic Hawkes Processes for Discovering
Time-evolving Communities' States behind Diffusion Processes」という
題目で発表をしました。本研究は、SNSにおける情報の伝搬、抗議デモや感染症
の広がりといった「拡散過程」をモデル化の対象としています。これらの拡散
過程をより正確にモデル化するため、点過程を拡張した新たな手法を提案しま
した。投稿にあたっては4つの実データセットを用いて実験を行い、提案手法が
(1) 外的要因による拡散過程の時間的変化(ロックダウンによる情報拡散の
加速、COVID-19流行による抗議デモの減少など)を自動で推定できる
(2) 近未来のイベント(情報拡散や抗議デモの発生など)を高精度に予測できる
ことを確かめました。アイデアの新規性に加え、Knowledge discovery(知識
発見)と応用上の意義を重視するKDDの価値観にマッチし採択に至ったものと
考えます。

来年のKDD2022はワシントンD.C.で開催予定とのことです。ぜひ参加あるいは
論文投稿を検討されてみてはいかがでしょうか。

(大川 真耶 NTT人間情報研究所)

---------------------------------------------------------------

■4■ ICML2021 参加報告

         丹羽 健太 (NTTコミュニケーション科学基礎研究所)

【会議概要】
2021年7月18日から7月24日にかけてオンライン開催されたThe 38th
International Conference on Machine Learning (ICML2021) に参加しました。
本会議はNeurIPSと並んで機械学習分野のトップ会議であり、機械学習の基礎
から応用まで幅広い研究が発表されます。今年度は投稿数5,513件、
採択数1,184件、採択率21.5%でした。昨年度と比較して、10%程度の投稿数が
増加し、採択率は昨年度の21.8%とおおよそ同等でした。そのうち、166件が
long presentation(20分)に割当てられて残りはshort presentation発表(5分)
でした。国別の採択数を見ると、1位は米国の729件、2位は中国の159件、3位
が英国の123件、日本は38件でした。組織別(企業、アカデミック混合)の採択数
を見ると、1位がGoogleで109件、2位がMITで63件、3位がStanford大、日本勢
では東大が22件でした。東京大学/理研の杉山先生が著者別採択数で単独首位
の14件と存在感を見せる場面もありました。

【研究のトレンド】
ICMLでの発表分野は多岐に渡り、Generative model、Graph Neural Network
Explainable AIなど様々なトレンドがあります。伝統的に一定の発表件数が
あるのが最適化の分野です。最近では、Federated learning(連合学習)に
関する発表件数が大きく増えています。ざっくりとカウントしても20件オーバ
ーの論文が採録されていました。Decentralized、heterogeneous、asynchronous
といった単語がタイトルに含まれることが多く、非同期分散のNW上でデータが
統計的に偏る状況下での学習に興味をもっていることが伺えます。関連して
Cornell universityのLuらの発表”Optimal complexity in decentralized
training”がOutstanding paper honorable mentionに選出されていました。
アルゴリズム自体にそれほどの目新しさはなかったのですが、非同期分散
ネットワークにおける収束解析を非常に丁寧にされているという印象を持ちま
した。それは、ネットワークのパラメータ(通信間隔やトポロジー)を考慮し
non-convex(e.g., DNN)における勾配ノルムの上界/下界の双方を示した点
で優れていました(上界だけ示す場合が多い)。

私が本会議で発表した”Asynchronous Decentralized Optimization With
Implicit Stochastic Variance Reduction”も連合学習に関する研究です。
最近の連合学習の流行として、(1)確率的勾配分散縮小法を分散学習
(Stochastic Variance Reduction: SVR)に取り入れた方法(e.g., SCAFFOLD
[Karimireddy et al.,2020], GT-SVR [Xin et al., 2020])と(2)凸関数
などで用いられる主双対法を分散学習に取り入れた方法(e.g., Primal-Dual
Method of Multiplier [Guoqiang et al., 2017], Edge-Consensus Learning:
ECL [Niwa et al., 2020],FedSplit [Pathak et al., 2020])がありました。
これら2つの方法は、別のアプローチから学習の更新式が定式化されており
並列の関係として捉えられてきました。しかし、それぞれの方式が抱える
技術的課題を見直すと、実はその2流派を包含/融合する最適な点があるの
ではないかという考えに至りました。そのアイデアの基で、主双対法(ECL)
における双対変数の更新幅を適切に設定すると、SVRに対応することが分かり
ました。これは、SVRにおける勾配を修正する制御変数の期待値演算における
不定性を解消することにも対応しており、SVRと主双対法の双方にとってメリ
ットのある考え方を導入できたと考えています。実験では、非同期通信を許可
した8台のノード(GPU)でP2P分散型のNWを構成し、それぞれのノードには統計
的に偏りのあるデータセットへのアクセスを許容しました。その状況でグロー
バル性の高いモデルを学習することに成功しました。

【オンライン開催について】
ICML2021では、事前にビデオを収録し(SlidesLive社アプリ、切り出し、字幕
編集可)、オーラルセッションではそれらを流していました。各セッションは
先頭にlong presentation、その後4~6件のshort presentation、最後に
全件に対する質問をリアルタイムで受け付ける方式でした。
Webページに埋め込まれたチャットでのやりとりも許容されていました。
それとは別に、ポスターセッション(2時間程度)についても参加し、リアル
タイムで聴講者とやり取りできるようになっていました。なお、ポケモン
のような画風のバーチャル会場からポスター会場にアクセスできるように
なっていました。昨年のICMLと比較して、リアル会場までは至らないですが
熱気を感じたり、ソーシャルネットワーキングができる工夫がオンライン上で
されていたと感じました。

(丹羽 健太 NTTコミュニケーション科学基礎研究所)

---------------------------------------------------------------