日本データベース学会

dbjapanメーリングリストアーカイブ(2021年)

[dbjapan] DBSJ Newsletter Vol.14, No.3: ECIR2021, WWW2021, ICDE2021参加報告


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2021年6月号 ( Vol. 14, No. 3 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では3月から4月に開催された国際会議ECIR2021と,WWW2021,ICDE2021の
参加報告をご寄稿いただきました.

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてご意見がございましたらnews-com [at] dbsj.orgまでお寄せください.

日本データベース学会 電子広報編集委員会

(担当編集委員 吉田 諭史)

===============================================================

----
目次
----

1. ECIR 2021参加報告
     佐藤 政寛 (富士フイルムビジネスイノベーション株式会社)

2. WWW 2021参加報告
     織田 拓磨(Mobility Technologies)

3. ICDE2021参加報告
     董 于洋(日本電気株式会社)

===============================================================

■ 1 ■ ECIR 2021参加報告
           佐藤 政寛 (富士フイルムビジネスイノベーション株式会社)

2021年3月28日から4月1日にかけてオンライン開催されたthe 43rd edition of
the annual BCS-IRSG European Conference on Information Retrieval
(ECIR)に参加しました.ECIRは情報検索(information retrieval)に関す
るヨーロッパの国際会議です.私は専門が情報推薦なのでRecSysに参加するこ
とは多いのですが,ECIRは初参加でした.採択率と採択本数は,Full paperが
24%/50本,Short paperが25%/39本,demonstration paperが48%/15本,
reproducibility paperが52%/11本,でした.聴講だけなら無料(発表者は150
ユーロ)なのもあり,参加者数(registration数)は約1100名と多かったよう
です(採択本数の約10倍).3セッションが並行して行われ,自身が参加した
各セッションの聴講者数は100名弱,Keynoteの聴講者数は200名前後だったと
記憶しています.会議は当初の開催予定地だったイタリア時間で行われました.
会議時間は現地の9時〜18時でしたが,日本時間で16時〜1時なので比較的参加
しやすい時間帯だったと思います.アトラクションとして現地の18時からイタ
リア料理レッスンも行われていました.

情報検索,情報推薦に関連する多くの国際会議(SIGIR,RecSys,CIKM,WSDM,
etc.)は論文出版がACMのdouble column formatですが,ECIRはSpringerの
single column formatです.ECIRの投稿規定はFull paperが12ページ,Short
paperが6ページ(reference含まず)でしたが,ACMのdouble column formatに
換算するとおおよそ半分のページ数になるようです.そのためACM系のFull
paper(8~10ページ)やShort paper(4ページ)の感覚で執筆すると規定ペー
ジ数に収まらないのでご注意ください.一方でECIRのFull paperは口頭発表時
間が25分+QA 5分とかなり長めでした.Short paperはGather Townを用いたポ
スター形式でした.

3件のKeynote講演がありました.1件目はRicardo Baeza-Yates氏による
"Ethics in AI: A Challenging Task"でした.GPT-3などの言語モデルが人種
差別的な文章生成を行うことや,司法の場でのAI使用は差別を助長するのかな
ど,印象的な事例を交えた興味深い講演でした.2件目はAhmed Awadallah氏に
よる” Learning with Limited Labeled Data: The Role of User
Interactions”でした.アノテーションデータを大量に集めるのは大変なので,
user interactionをweak labelとして活用する研究が紹介されました.3件目
はOphir Frieder氏による"Untraditional (Computer) Medicine”でした.
台湾では電子診療記録が長期蓄積されており研究利用可能らしく,これを用い
たpersonalized patient careの研究や,SNSをモニタリングして感染症の突発
的流行を検出する研究などが紹介されました.いずれのKeynoteもYoutube動画
が公開されており,(ECIR AND 発表名)などで検索すると見つかります.

私自身の発表は,”Causality-Aware Neighborhood Methods for Recommender
Systems”というタイトルのFull paperでした.推薦したアイテムをユーザー
が購入/視聴したとしても,それは推薦の効果とは限らず,推薦しなくてもユー
ザーが購入/視聴していた可能性があります.そこで推薦による因果効果とい
う観点でアイテムをランキングすることを目指しています.あるアイテムをあ
るユーザーに推薦する/しないはどちらか一方の状況しか観測されず,因果効
果のground truthなしでモデルを学習する必要性が難しさになっています.因
果推論の研究分野にはmatching estimatorという介入対象と特性が似た非介入
対象との結果の差から因果効果を推定する手法があり,この考え方と情報推薦
の伝統的手法である近傍ベースの協調フィルタリングを融合させた手法を本研
究で提案しました.これにより,いろいろなシミュレーション条件下で先行研
究を上回る性能を実現しました.因果効果を目指した推薦は研究がまだ少ない
ですが,実利的にも有用だと思うので,今後研究が盛り上がることを期待して
います.

最後に,ECIR 2022はノルウェーのStavangerで4/10〜14開催(Full paperの投
稿締切は10/7),ECIR 2023はアイルランドのDublin開催,の予定です.

-----------------------------------------------------------------------

■ 2 ■ WWW2021参加報告
                 織田 拓磨(Mobility Technologies)

2021年4月19日から23日まで開催されたThe Web Conference 2021(WWW)に参加
してきました.WWWは,Web・データマイニング分野のトップカンファレンスで
す.本来はスロベニアのリュブリャナで開催される予定でしたが,昨年に引き
続きCOVID-19の影響でオンライン開催となりました.今年は,運営メンバや論
文著者を含めた全体の参加者は2843人で,62ヵ国から918名の参加登録があっ
たとのことです(昨年度より50%増加).論文投稿数は1736件,採択数は355件
でした(採択率: 20.4%).論文投稿はトラック(分野)ごとに分かれていま
すが,特に投稿数が多い分野はソーシャルネットワークのグラフマイニングや
パーソナライゼイションでした.全体で,14 Keynotes, 50弱のWorkshop &
Tutorialsが開催され,非常に多岐にわたる研究が発表・議論されました.ま
た,Web of Health と Future of the Web は今年のメイントピックの一つで
あり,10名を超えるゲストの講演が行われ,活発な議論がされていました.

私は「Mobile」トラックで「Equilibrium Inverse Reinforcement Learning
for Ride-hailing Vehicle Network」
(https://arxiv.org/pdf/2102.06854.pdf) という題目で発表しました.この
研究では,タクシーなどのライドヘイリングサービスにおける道路ネットワー
ク上のドライバーの行動モデリングとマルチエージェントの報酬学習のアプロー
チを提案しました.タクシー乗務員は空車時にはこれまでの経験に基づいて,
各々が自由に乗客を求めて走行するため,未来の状態には不確実性が伴います.
したがって,リアリスティックなタクシーの走行経路をシミュレートすること
ができれば,マッチングアルゴリズムの改善や施策意思決定に役立つと考えて
います.ご興味のある方は,こちらのブログ記事

また,DeNA & MoTのAI技術共有会 (5/21) において,WWW2021の参加報告をさ
せていただきました.この発表では,学会の概要の他にLikedInの効果推定と
Googleの推薦システムに関する論文の紹介をしました.発表スライドはこちら
ていますので,ご興味のある方は是非ご覧ください.

WWW2022はフランスのリヨン大学で2022年4月に開催される予定です.ぜひ参加
を検討されてみてはいかがでしょうか.

-----------------------------------------------------------------------

■ 3 ■ ICDE2021参加報告
                         董 于洋(日本電気株式会社)

会議概要
2021年4月19日から22日まで開催された 37th IEEE International Conference
on Data Engineering (ICDE21) に参加してきました.ICDEはデータベース分
野の三大トップ会議(SIGMOD, VLDB, ICDE)の一つであり,昔は10月ぐらいに年
一回論文募集していましたが,2019年から6月・10月に年二回の形になって投
稿しやすくなりました.今年のICDE21はギリシャのハニアに開催予定ですが,
コロナのためオンライン開催となりました (Openingの際にハニアの美しい風
景が動画で流れ,実際に現地で見ることができればと,残念に思いました).
今年のFull paperの採択率は 28% (151/549)で例年よりは高く,国別の投稿数
は中国191件,アメリカ105件,オーストラリア37件で,日本は9件(うち4件採
択)で13位でした.

研究動向
ICDEのトピック範囲はデータベースコア技術・データマイニングに限らず,機
械学習,DB for ML,ML for DB,データサイエンス,プライバシー,クラウド
ソーシングなど,時代と共に進化している印象です.Full paperのエリア別で
の投稿数と採択率も違っています.投稿数がもっとも多く三つのエリアはデー
タマイニング (約100件),グラフ(約100件)と時空間・マルチメディアデータ
(約60件)であり,採択された論文はその2-3割ぐらいです.プライバシー,ML
for DB,DB for ML,データサイエンスのそれぞれの投稿数は約15-25件で,採
択率は1割ぐらいです.「Workflows, Scientific Data Management」のエリア
では2件の投稿は全部Full paperとして採択したが,「Uncertain,
Probabilistic and Approximate Database」と「Strings, Texts and Keyword
Search」の合計5件の投稿はFull paperでは1件でも採択されたという状況もあっ
た.

私の発表
私は,Data Integration and Data Scienceのセッションで,以下の研究内容[1] 
について発表しました: “Efficient Joinable Table Discovery in Data
Lakes: A High-Dimensional Similarity-Based Approach”, Yuyang Dong,
Kunihiro Takeoka, Chuan Xiao, Masafumi Oyamada. この研究はデータの拡張
によりデータ分析等を高品質化することを目的とし,大規模データレークから
手元の所有テーブルとjoin可能なテーブルを高速に発見・検索するアルゴリズ
ムを提案しました.従来研究の方式ではequi-joinのテーブルを対象としてい
ますが,データレークでは異種データではjoinキーの表現が異なるため,結果
のrecallが少ない問題があった.これに対して,我々が言語モデルを活用して
クエリと検索対象の文字列をベクトル表現に変換し,文字列上に類似する候補
だけではなく,意味的に近い候補も拾ってくれる手法を提案しました.さらに,
ベクトルの距離空間の特徴に対し,block-and-verifyという二段階の除外処理
が対応するインデックスを設計して効率的に候補を絞り込むことができました.
実験では,提案手法が従来方式より良い精度・速度でjoin可能なテーブルを検
索でき,検索された候補をクエリテーブルとjoinすることで機械学習の予測精
度の向上にも有用することも示しました.私が所属した部署は,外部データの
利活用でデータを高品質化するビジネスに取り組んでしており,この研究に関
連するNEC Data Enrichment サービス[2]もリリースしています.

オンライン開催について
この時世でオンライン開催は仕方がないですが,個人的にはオンライン開催す
ると国際学会参加の魅力が大半削減すると思いました.開催地の文化と風景が
感じられないものの,研究者たちのコミュニケーションも少なくなりました.
例えば,今回のICDE21のセッションでは,質問者がチャットに書き込み,そし
てセッションのチェアが問題を拾って質問する形式で,インタラクティブな交
流ができませんでした.セッション以外もgather/slackなどの交流の場が設置
していないため,学会参加の実感が薄いと感じました.(去年のVLDB20の
gatherでいろんな知り合いと会話して楽しかったです.) もう一つは時差の問
題,今主流な会議はほとんどPacific Timeに従い,アジアの参加者としては辛
かったです.今回私の発表のセッションは日本の朝1:00-2:00という時間帯で
した.一方,オンライン開催の良い点もたくさんあり,例えば,出張の疲れが
なくなって自宅で気楽にセッションを参加できます.発表者も事前にプレゼン
を録画することで準備も楽になり,リアルタイム発表の緊張感も解消できます.
以上のようにオンライン開催が良し悪しがありますが,これからの国際会議は
さらに良い点を発展し,悪い点を避けるように期待しています.

[2] NEC Data Enrichment: ソリューション・サービス,

===============================================================