日本データベース学会

dbjapanメーリングリストアーカイブ(2022年)

[dbjapan] DBSJ Newsletter Vol. 14, No. 8: IEEE BigData 2021, WI-IAT 2021, WISE 2021, ICDM 2021, ICADL 2021


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2022年2月号 ( Vol. 14, No. 8 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では,国際会議 IEEE BigData 2021, WI-IAT 2021, WISE 2021, ICDM 2021,
ICADL 2021 の参加報告をご紹介致します.

本号では,研究の最新動向のほか,コロナが会議開催に及ぼしている影響,ご自身
の研究の進め方,研究グループに関することなど,盛りだくさんの内容をご寄稿い
ただきました.ぜひお読みいただければと存じます.

本号ならびに DBSJ Newsletterに対するご意見あるいは次号以降に期待する内容に
ついてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください.

                                  日本データベース学会 電子広報編集委員会
                        (担当編集委員 村上 直)

=======================================================================

----
目次
----

1.IEEE BigData 2021 参加報告
  赤塚 裕人 株式会社NTTドコモ

2.WI-IAT 2021 参加報告
  菊地 真人 名古屋工業大学

3.WISE 2021 参加報告
  丸田 敦貴 筑波大学

4.ICDM2021に参加して思うこと: メモリと探索について
  今村 誠 東海大学

5.ICADL 2021 参加報告
  福田 悟志 中央大学



=======================================================================


■1■ IEEE BigData 2021 参加報告    赤塚 裕人(株式会社NTTドコモ)


2021年12月15日から18日にかけて開催された2021 IEEE International Conference
 on Big Data(IEEE BigData 2021)に参加しました.IEEE BigDataはビッグデータに
関するトップ会議の1つであり,ハードウェアやOSのレベルから,システムインフラ,
プライバシー,アプリケーションに至るまで,幅広いトピックを扱っています.今
年は485本の投稿があり,Regular paper,Short paperともに,それぞれ97本(採択
率20%)が採択されました.投稿数,Regular paper採択数ともに最も多かったのは
「Big Data Learning and Analytics」というトピック(投稿数:155,Regular
 Paper採択数:26)で,ビッグデータ×機械学習に対する注目の高さがうかがえま
す.

ほかの多くの会議と同じく,コロナウイルスの影響でオンライン開催となりました.
発表者は事前にプレゼン動画を提出し,セッションでは動画を視聴後,ライブQAと
いう形式でした.オンライン開催には,いつでもビデオで視聴できる等のメリット
がある一方で,ライブでの参加者が減少したり,交流が難しかったりといったデメ
リットがあると感じます.私がチェアを務めたセッションでは,発表者以外の参加
者がいないという状況でした.こういったオンライン開催での課題に対しては,動
画は事前に見る前提でセッションは質疑応答のみとすることで開催時間を圧縮する
会議や,各発表を2回行うというタイムテーブルを採用する会議など,いくつかの工
夫が出てきていると感じます.

  私は「Traffic Dispersion by Predicting Traffic Conditions based on
 Population Distribution」というタイトルの論文を「Big Data Applications」ト
ピックに投稿し,Regular paperとして採録され,「Big Transportation and
 Spatial Data」というセッションで発表を行いました.研究の目的は,高精度な渋
滞予測情報を,ドライバーがその日の行動を決定する前に提供することで,交通分
散を促し渋滞を緩和・解消することです.交通状態を予測する手法は数多くの研究
がありますが,それらのほとんどは数分〜1時間程度先までを予測のターゲットとし
ており,予測情報を受け取ったとしてもドライバーができることが限られています.
本研究では,交通需要を生み出す元である「人口」に着目し,昼12時時点までの人
口分布から,数時間〜半日先までの帰りの時間帯の交通状態を高精度に予測する手
法を提案しています.また,NEXCO東日本と共同で,ドライバーに予測結果を配信す
るフィールド実証実験を実施し,提案手法による予測結果を見た多くのドライバー
に行動変容が起こっていることをアンケート結果から確認しました.

IEEE BigDataは2013年に初めて開催されて以降,順調に規模を拡大し,来年で10周
年を迎えます.これまでのオフライン開催の会場はすべてアメリカでしたが,来年
は日本の京都/大阪での開催が予定されています.興味を持たれた方はぜひ投稿・参
加をご検討ください.


(赤塚 裕人 株式会社NTTドコモ)


-----------------------------------------------------------------------


■2■ WI-IAT 2021 参加報告        菊地 真人(名古屋工業大学)


【会議の概要】
2021年12月14日〜17日にオーストラリア(メルボルン)とオンラインでハイブリッ
ド開催されたThe 20th IEEE/WIC/ACM International Joint Conference on Web
 Intelligence and Intelligent Agent Technology(WI-IAT 2021)の参加報告で
す.本会議はWebインテリジェンスと知的エージェントに関する2nd-tierの国際会
議です.2021年は開催から20周年の節目に当たります.本年は「Web
 Intelligence = AI in the Connected World」というテーマのもと,人間とAIが
協調してより良い世界を作るためのアイデア,発見,戦略について,活発な研究報
告が行われました.

【採択率などの統計情報】
43の国と地域から206本の投稿があり,57本がレギュラーペーパー,38本がショー
トペーパーとして採択されています.レギュラーのみの採択率は27.6%,ショート
を含めた採択率は46.1%でした.国別の統計では日本からの投稿数・採択数はとも
にトップで, 2番手のUSAをそれぞれ1.7倍,2倍ほども引き離しました.このこと
から,日本人が積極的に参加している会議と言えるでしょう.本研究室でも
Special Trackに1本,メイントラックに 2本(ショート)が採択されています.

【開催形式について】
WI-IAT 2021はハイブリッド開催でしたが,海外渡航の情勢が不安定なため,私た
ちを含めて多くの研究者がオンラインで参加しました.発表者は事前に発表ビデオ
を提出し,発表に際してビデオを流すか,ライブ発表するかは座長裁量で決められ
ているようでした.発表を見ていると,やはりライブ発表の方が質疑応答が盛んな
印象を受け,またオンライン発表のためか,質疑応答のない発表も残念ながら目立
ちました.一方で,時差の関係でライブ発表が難しい発表者にはビデオ発表が許可
されており,発表者の経済的,身体的な負担が少ないオンライン参加の長所も感じ
ました.

【私たちの研究について】
Special Track on Social Computingにて,「Matching Social Issues to
 Technologies for Civic Tech by Association Rule Mining using Weighted
 Casual Confidence」という題目でライブ発表しました.本研究では,シビック
テックコミュニティ(注釈1)間の協働支援を最終目的とし,社会課題とその解決
に必要な情報技術のマッチングを試みました.各団体は地域に根差して活動します
が,ときには地域を跨いだ団体間の助け合いが重要です.課題解決に必要な技術を
持つ団体を見つけたいですが,そもそも未着手の課題に要する技術を知るのは簡単
ではありません.そのため,NPO等が取り組む社会課題への技術活用を促進するSTO
(注釈2)という専門職が存在します.しかし,市民団体がSTOを雇うには経済的な
負担が大きいため,我々はSTOの役割の一部である「社会課題と技術のマッチング」
の自動化を目指しました.各団体に行った課題と技術の事前アンケートをもとに,
関連が深そうな課題と技術の組み合わせを相関ルールマイニングで抽出しました.
このマイニングでは,ほとんどのアイテム(課題,技術)の出現頻度が低いのに対
し,一部のアイテムが頻出する問題がありました.そこで,これらの問題に対処で
きる興味深さ指標“Weighted Casual Confidence”を提案し,技術者を対象とした
主観評価で課題と技術のマッチングへの有効性を示しました.

注釈1)シビックテックコミュニティ:各地域の社会課題を情報技術で解決するた
めの市民団体.日本では,Code for “地域名”という名称のコミュニティが各地
に存在します(例えばCode for Nagoya).

注釈2)STO:Social Technology Officerの略称.

WI-IAT 2022はカナダ(ナイアガラの滝)とオンラインでハイブリッド開催の予定
です.冒頭で述べましたように,本会議は世界的に知名度があり,かつ日本人が積
極的に参加しておりますので,ぜひ皆様も投稿をご検討ください.


(菊地 真人 名古屋工業大学)
(大囿 忠親 名古屋工業大学)


-----------------------------------------------------------------------


■3■ WISE 2021 参加報告            丸田 敦貴(筑波大学)


2021年10月26日から29日にかけて開催された,International Conference on Web
 Information Systems Engineering (WISE) 2021に参加してきました.WISEはWeb
 scienceに関する様々な分野を受け付けている間口の広い学会です.今回はオース
トラリアのメルボルンで開催される予定でしたが,オンラインでの開催となりまし
た.WISE 2021では229本のフルペーパーの投稿があり,その中で採択された論文は
55本(採択率24%)でした.また,フルペーパーの口頭発表セッションには以下のセッ
ションがありました:BlockChain and Crowdsourcing,Database System and
 Workflow,Data Mining and Applications,Knowledge Graph and Entity
 Linking,Graph Neural Network,Graph Query,Social Network,Spatial and
 Temporal Data Analysis,Deep Learning,Recommender Systems,Text Mining,
Service Computing and Cloud Computing.このようにクラウドソーシングに関す
る論文から推薦システムに関する論文まで多種多様の論文が発表されていました.

WISEの期間中は授業等があり,あまり聴講することができなかったため,ここでは
私が論文を投稿するまでに学んだことを書かせていただきます.私がWISEに投稿し
たのは修士1年の7月です.その時期は研究や大学院の授業,就職活動を並行して行
なっており,授業の課題の締め切りとインターンのエントリーシートの締め切り,
さらにWISEの締め切りという三重苦でしたが,自分に合った計画を作ることを心が
けました.私の場合は徹夜での作業や何時間も同じ作業を繰り返すことが苦手なの
で,課題をやる時間の他にも,家でリラックスする時間や友達とご飯を食べる時間
なども計画に入れました.こうすることで,次々と迫る締め切りに押しつぶされる
ことなく,適度にリフレッシュしながら乗り切ることができたと思います.また,
論文を執筆する際には「論文は大学のレポートのような感覚で書くのではなく,作
品だと思って細部まで作り込む」というアドバイスを加藤先生からいただきました.
論文の中で図や表の見やすさは,読み手の理解にとても大きな影響を与えるため,
見やすい図や表を作ることを意識しました.具体的には,図の大きさが揃っている
か,文字の大きさは適切か,見やすい色を使っているか,全体のバランスは良いか,
などを意識して図や表を作成し,論文を完成させることができました.

次に私が発表した論文について説明させていただきます.私はRecommender
 Systems というセッションで以下の論文を発表させていただきました:
Atsuki Maruta, Makoto P. Kato. Intent-aware Visualization recommendation
 for Tabular Data. WISE2021. vol 13081. Springer, Cham.
 https://doi.org/10.1007/978-3-030-91560-5_18.
これは視覚化の意図を考慮した新しい視覚化推薦システムを提案した論文です.既
存の視覚化推薦システムの手法は表形式データのみを入力して視覚化を推薦してい
たのに対して,本論文では表形式データとともに「日本の人口の推移」といったよ
うな視覚化の意図を考慮することで,よりユーザの意図に沿った視覚化を推薦する
という手法を提案しています.具体的には,「日本の人口の推移」などといったよ
うな視覚化の意図の各単語と表形式データの各列の対応関係を予測することで,グ
ラフの種類と表形式データの中から視覚化に用いられる列を予測する,という手法
を提案しました. 

発表は日本時間の8時ごろからZoom上で行いました.私は英語に苦手意識を持って
いたため入念に発表準備をしました.正しい発音で流暢に喋れるようになるまで何
度も発表練習をして,加藤先生や研究室のメンバーからも英語での発表のフィード
バックをいただきました.そのおかげで本番の発表は緊張の中でもうまく喋れるこ
とができたと思います.しかし,質疑応答でうまく聞き取ることができず,さらに
うまく答えることもできませんでした.私の英語力の無さを強く実感しました.今
回の失敗を肝に銘じて,英語に触れる機会を増やそうと思いました.

WISEは様々な分野を受け入れていますので,多くの方が投稿できる学会ではないで
しょうか.次回開催されるWISE 2022はフランスのビアリッツという場所で開催さ
れるそうです.皆さんもWISEへの投稿を是非ご検討ください.


(丸田 敦貴 筑波大学 人間総合科学学術院 人間総合科学研究群
 情報学学位プログラム 加藤研究室)


-----------------------------------------------------------------------


■4■ ICDM2021に参加して思うこと: メモリと探索について
                          今村 誠(東海大学)


参加報告を依頼されたのですが,他の講演を聞く時間がとれなかったので,私自身
の参加セッションの様子と,自身の論文の経緯について書かせてください.

12月9日,発表当日,自宅のネット環境のバックアップとしてポケットWifiを準備
する.というのは,昨年のKDD20のとき,会議1時間前にリスが通信ケーブルをかじ
ったために,ネットが切れ大いに動揺したからだ.開始30分前,マニュアル通りセ
ッションに参加.管理者が発表者を確認する.チェアも含めると,中国人5人,韓
国人1,日本1人.東洋人の時間帯なのかもしれない.ほどなく会議が始まるが,参
加者は発表者+αと少ない.最終日のためか,あるいは,NeurLIPSと開催時期が重
なったためか,ちょっと寂しい.

発表は事前録画ビデオを流すだけなので,淡々と進む.ただ,バーチャルは臨場感
なく質問もほぼセッションチェアのみと盛り上がらない.しかし,英語の不得意な
私にとっては,チャット機能はうれしい.相手と1対1でやりとりできるので,質問
も回答もしやすい.また,共著者の知人から,「そういえばお会いしてませんね」,
「初めまして」などあると,国際会議への参加感も少しはでる.

さて,発表論文

 Spikelet: An Adaptive Symbolic Approximation for Finding Higher-Level
 Structure in Time Series

は,7年前に75%ぐらいできていたが詰めに時間を要した.定型化による思考の高速
化を狙って,アルゴリズム発想の手続きを内観してみよう.

私は,機器時系列の異常検知のために,Discord(*1)を試していた.しかし,「窓
サイズが可変」と「周期的でない振動を含む」というデータ特徴のためにうまくい
かない.周波数解析,時系列解析も同様だ.そこで,従来方式の共通課題として
「窓サイズが固定(*2)」に注目する.

認知科学者のRoger Schankは著書"ダイナミック・メモリ"で「考えることは思い出
すこと」と言ったけど,最初に思い出したのは,"ルベーグ積分".リーマン積分の
ように定義域(時間)で分割するのではなく,値域で分割するアプローチでいこう.
そして,分割の単位を「極値を頂点と端点とする三角形(Spikeと呼ぶ)」とし,時
系列の近似表現としてSpikeの集合を採用する(Spikelet分解とよぶ).

次に,思い出したのは,"ユークリッドの互除法".幸運なことに,1回の操作で2
つのspikeを切り出す操作の反復により,時系列長の線形オーダでSpikelet分解を
得ることができる(初期Spikelet分解とよぶ).この分解は,分割のオーバラップを
許すので,フーリエ級数やWaveletと同様に,木(local)と森(global)を同時に見る
ことができる.いわゆる多重解像度.新規性は,分割のセグメント長がデータに応
じて可変な点にある.

最後に,思い出したのは,"有限生成".予知保全で使うためには,ノイズとなる
Spikeの除去や,変動の小さい定数部分列の抽出などの操作が後処理として必要な
のだが,その操作はパラメータが10程度あり,アルゴリズム化は困難にみえた.と
ころが,この後処理は5つの基本操作の積で表現でき,かつ,本質的なパラメータ
は2つとわかると,意味のある少数の組合わせを順に調べることで問題は解決した.

30年前の人工知能の教科書には,「考えることは,状態と操作を適切に定義できれ
ば,操作の系列を探索する問題に帰着できる」とあったが,この場合は,Spikelet
分解を状態とし,変形操作の積が作る代数を考えると,探索問題の見通がよくなる
という例にあたる.

(*1) Discord: スライド窓で得られる部分列の最近傍を求める手法)
(*2) フーリエ級数は,時系列長Nを2べき乗で割って得られる複数の窓サイズをも
つ場合とみなせる.


(今村 誠 東海大学 情報通信学部)


-----------------------------------------------------------------------


■5■ ICADL 2021 参加報告            福田 悟志(中央大学)


2021年12月1日から3日の間で開催されたICADL 2021(23rd International
 Conference on Asia-Pacific Digital Libraries)に参加および研究発表を行い
ました.ICADLは,デジタルライブラリ分野においてJCDL(Joint Conference on
 Digital Libraries)やTPDL(Theory and Practice of Digital Libraries)と並
ぶ主要会議の一つであり,データベース分野とも関連が深い会議であります.今年
は,昨年と同様にオンラインでの開催となりました.採択された論文数は,full
 paperでは17件,short paperでは15件,practice paperでは5件でした.

今年のICADLで発表された研究を見ていきますと,研究タスクは様々ではあります
が,用いる技術にBERTなどのTransformerモデルを採用していた研究が多かった印
象を受けました.例えば,Best Paperに選ばれた「Automated Mining of
 Leaderboards for Empirical AI Research」という研究では,科学者の学術情報
を自動的に組織化するためのアプローチを提案しており,BERT,SciBERT,XLNetを
使用しています.また,「Information Extraction」のセッションで発表されたい
ずれの研究でもBERTが使用されていました.このことから,Transformerモデルの
汎用性の高さ,および今後のNLP分野やデータベース分野におけるTransformerモデ
ルの必需性が高まりを本会議で感じました.

私は,「Automating the Choice Between Single or Dual Annotation for
 Classifier Training」というタイトルで発表しました.この研究は,九州大学の
石田栄美准教授を代表とした研究プロジェクトにおける研究成果の一つとなってお
ります.このプロジェクトは,社説記事を対象に,原子力発電等の議論に関する人
の価値観に対する内容分析を,社会科学および計算科学の方面から行うというもの
であり,国内外合わせて8人の研究者が参加しています.これまで,社会科学チー
ムでは,原子力発電等の議論における価値観の定義を行い,社説記事の各文に対し
て実際にラベル付けを行ってきました.また,計算科学チームでは,人の価値観に
対する内容分析の半自動化に向けたアプローチの開発を目指し,学習用データの効
率的な構築を行うための方法を提案してきました.
ICADLで発表した研究では,強化学習の観点から,限られた予算の中で逐次的にな
るべく高性能な分類器を構築するためのデータセットのコーディング戦略を提案し
ました.具体的には,2名のコーダーを雇うという条件において,1) コーダーAが
未コーディングのテキストにコーディング,2) コーダーBが未コーディングのテキ
ストにコーディング,3) コーダーBがコーディングしたテキストにコーダーAがコー
ディングを行い,その後コーダー間で合議,4) コーダーAがコーディングしたテキ
ストにコーダーBがコーディングを行い,その後コーダー間で合議という4種類のコー
ディング方法を設定します.そして,各方法を「アーム」とみなし,ε-greedyア
ルゴリズムに基づくバンディットアルゴリズムにより,次のコーディングにより分
類性能が向上する可能性が高いアームを選択していきます.実験では,社会科学チー
ムが定義した6種類の各価値観に対するデータセット作成タスクを設定し,いずれ
のタスクにおいても概ね逐次的に品質の高いデータセットを作成できることを示し
ました.

2022年のICADLの開催に関する詳細はまだ発表されておりませんが,冒頭でも述べ
たように,データベース分野とも関連の深い国際会議ですので,より多くの方が参
加や発表をしていただければと願っております.


(福田 悟志 中央大学)


----
村上 直 / SHIFT Inc. 日本データベース学会(DBSJ)電子広報編集委員
mtadashi [at] acm.org