日本データベース学会

dbjapanメーリングリストアーカイブ(2020年)

[dbjapan] DBSJ Newsletter Vol. 13, No. 4: SoC, SIGMOD, TheWebConf, ACL


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2020年8月号 ( Vol. 13, No. 4 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

本号では6月に開催されました第11回ソーシャルコンピューティングシンポジウムの開催報告,
ならびに4月から7月までに開催されたSIGMOD, The Web Conference, ACLの参加報告
記事をご寄稿いただきました.

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください.

日本データベース学会 電子広報委員会
(担当編集委員 塩川 浩昭)

========================================================================

----
目次
----
1.ソーシャルコンピューティングシンポジウム(SoC2020)開催報告
  金 京淑(産業技術総合研究所)

2.SIGMOD 2020 参加報告
  駒水 孝裕(名古屋大学)

3.TheWebConf2020 参加報告
   佃 洸摂(産業技術総合研究所)
  
4.ACL2020 General Overview
  Happy Buzaaba (University of Tsukuba)

========================================================================

■ 1 ■ ソーシャルコンピューティングシンポジウム(SoC2020)開催報告
金 京淑(産業技術総合研究所)

本年度の第11回ソーシャルコンピューティングシンポジウム(SoC2020)は、新型コロナ
ウイルス感染症の影響でオンライン会議システムによるウェブ会議形式で開催されました。
午前中のセッションでは10件の一般発表が、午後のセッションでは2件の招待講演が行われ、
盛況のうちに幕を閉じました。

SoCでは学生の優秀な発表に対して学生奨励賞を授与しました。厳正な審査の上、
今年度は以下の2名の発表者を表彰しました。おめでとうございます。

○荒澤孔明様(室蘭工業大学)
行動ログの機械学習を用いた他ユーザのSNS投稿に対するお気に入り登録予測

○藤本 和様(九州大学)
実況ツイートに対する文字レベルオートエンコーダを利用したスポーツ中継の状況推定

本シンポジウムでも魅力的な招待講演者を多数お招きしました。今回は、新型コロナ
ウイルス感染症対策としてテレワークの普及や、ウェブ会議、オンライン打ち合わせ
などが増加していることから、Withコロナ時代のソーシャルコンピューティングの
取り組みについて、下記の2件の招待講演を実施しました。

合田和生 先生(東京大学)と 吉田尚史 先生(駒澤大学)による「DEIM2020の
オンライン開催:激動の20日間と痛感したこと」のご講演では、DEIM2020を運営する
実行委員会の立場から、オンライン会議への転換やそれに伴う準備、運営の経験を報告
するとともに、新たな時代の学術集会の在り方や新たな展開の可能性についてお話し
いただきました。DEIM2020は、当初は福島県磐梯熱海に於いて例年のように合宿形式
で開催することを予定していたものの、新型コロナウイルス感染症が急激に拡大する
状況に鑑み、会議場での開催を中止し、これに代えてオンライン会議システムを用いて
開催されました。合田先生は、1月末から2月17日のオンライン開催決定までの状況や、
オンライン開催という「壮大な実験」のため国立情報学研究所(NII)と協力し、
オンライン会議の準備から開催までの流れをご紹介いただきました。また、吉田先生からは、
オンライン会議システムの運営に必要な具体的な準備事項や、3回に渡る実証実験、
進行マニュアルの作成など、オンライン会議運営の経験に関してご説明いただきました。
特に、DEIM2020によって得られた知見を集約して作成されたオンライン会議の進行
マニュアルは、本シンポジウムの準備においても大いに参考となりました。

渡辺健太郎 氏(産業技術総合研究所)による「拡張テレワークとその展望」のご講演
では、新型コロナウイルスの社会・産業への影響が長期化している中、Withコロナ・
Postコロナ社会における事業継続、並びに新しい働き方の一つの方向性として「拡張
テレワーク」という新たなコンセプトについてご紹介いただきました。産総研人間拡張
研究センターで取り組んでいる研究内容とともに、⼈が集まらなくても事業継続できる
環境を実現する拡張テレワーク技術の実装にあたり、⼈間中⼼のアプローチと多様性へ
の配慮の重要性についてお話しいただきました。今後の産業や仕事の変化、その環境下
におけるソーシャルコンピューティング技術の役割と可能性を考えることができ、
大変刺激的なご講演でした。


(金 京淑 産業技術総合研究所)

-----------------------------------------------------------------------

■ 2 ■ 国際会議 SIGMOD 2020 参加報告
駒水 孝裕(名古屋大学)

2020年6月14日から19日にかけて開催された SIGMOD 2020 に参加しました.
ご存知の通り,SIGMOD がデータベースに関するトップ国際会議のひとつです.
SIGMOD 2020 は当初,アメリカ合衆国オレゴン州のポートランドで開催される
予定でしたが,新型コロナウイルス感染症 (COVID-19) の影響によりオンライン
開催となりました.それに伴い,発表者の参加費が引き下げられただけでなく,
聴講での参加は無料となりました.今回の SIGMOD の論文採択率は,Research
Track が 26.9% (123/458) と例年よりも高い採択率となりました.参加者は
およそ 3,000名で60カ国以上からの参加がありました.

SIGMOD の論文はどれもレベルが高く内容が濃く,ここで内容を語るより各方で
論文を読まれた方が有益かと思いますので,ここでは Best Paper に選出された
論文を列挙するにとどめたいと思います.今回の SIGMOD では,2 件の Best
Paper が選出されました.以下にそれぞれのタイトルを列挙します.

- ShapeSearch: A Flexible and Efficient System for Shape-based Exploration of Trendlines
- Pump Up the Volume: Processing Large Data on GPUs with Fast Interconnects

前者は,データ分析時に,データのパターン(e.g., 上がって下がってまた上がる)
を表現する代数 shape querying algebra を定義しています.ユーザは,この
パターンを (1) 手書き,(2) 自然言語,あるいは(3) 正規表現を用いて記述し,
システムがユーザの記述を上記代数に変換し実行します.この論文では,これをリアル
タイムで実行するためのエンジンと問合せ最適化を提案しています.ビジネスミーティング
では,この論文はBeautiful だと評されていました.後者は,GPU 使用時のボトルネック
であるデータ転送を改善した NVLink 2.0 についての詳細な分析を行い,GPU の
メモリサイズを超えるハッシュ結合の高速化手法を提案しています.

SIGMOD のビジネスミーティングでは,論文賞と各種報告が行われました.査読に
ついての報告で,"review to accept" というキーワードがしきりに使われて
いました.これまでの査読は "review to reject"(落とすための査読)となって
おり,多くの良い論文を採択できていなかったことが背景にあるようです.これが
上述の高採択率につながったようです.また,SIGMOD2019 のときに,良い論文を
すくい上げる意味で,フルペーパ採択に至らないが良い論文を short paper として
採択することが提案され,今回からshort paper としての採択が実現しました.
今年は 21件が short paper として採択されています.2021年の SIGMOD では,
採択論文の幅をさらに広げるためにデータサイエンスや他分野のアプリケーションや
問題を取り込む新たなカテゴリが新設されます.査読については下記問題が上げられ,
改善が必要だと報告されていました.

- author feedback が査読に反映されていない
- VLDBで reject された論文が投稿された際に同じ査読者が割り当てられ,同じ査読をしてしまう(査読者の割当システムの問題)
- 分野が広がってしまい,適切な査読者が見つからない
- 他の報告では,経済的には問題なく収入が得られている,SIGMOD 会員数が減少している,などが報告されました.

オンラインの国際会議の開催方法はいろいろなトライがされています.今回の SIGMOD
では,セッションは Zoom Webinar で行われました.発表は,発表者が事前に録画
したものを開催側がZoom を介して再生する方法が取られました.質疑応答は,セッション時
に発表者をパネリストとして登録し,Q&A 欄に入力された質問に口頭で答える方法が
取られました.同時に,Slack が用意され,セッションごとにチャネルが設けられて
いるので,「オフライン質問」が Slack を介して行われました.参加者の交流には
Zoomtable が用いられました.知り合いとの雑談用に,Gatherというサービスを用いて
プライベートなチャットルームが作成できるようになっていました.今回の SIGMOD
も他のオンライン会議にもれず,発表やイベントの録画がオンラインで公開されますので,
参加できなかった方も発表やキーノートを見ることができます.


(駒水 孝裕 名古屋大学)

-----------------------------------------------------------------------

■ 3 ■ TheWebConf2020 参加報告
佃 洸摂(産業技術総合研究所)

2020年4月20日から24日にかけてオンラインで開催された,Webに関する代表的な
国際会議であるThe Web Conference 2020(TheWebConf2020)に参加しました.
この会議は2017年まではInternational World Wide Web Conferenceという
名称でしたが,通称であるWWWという会議名が,特にSNS上でvisibilityが低いなどの
理由から,2018年よりThe Web Conferenceに名称を変更して開催されています.
論文投稿時には,12種類あるリサーチトラックから著者が投稿先のトラックを選択する
ようになっています.投稿数はWeb Mining,User Modeling,Social Network
Analysisの3トラックが他の9トラックよりも圧倒的に多いという傾向が昨年に続いて
見られました.投稿数の少ないトラックに投稿すれば採択されやすいということはなく,
いずれのトラックでもロング・ショートともに採択率がおよそ20%になるように調整されて
いるそうです.会議は当初,台湾の台北で開催される予定でしたが,開催時期が4月と
いうこともあり,新型コロナを取り巻く情勢の変化とともに開催形式が二転三転し,
最終的にはZoomによる完全オンライン開催となりました.このあたりの紆余曲折は
下記URLの会議のプレスリリースにも掲載されています.
https://www2020.thewebconf.org/press

本会議で発表された論文から,Best PaperにはNikhita Vedulaらの「Open
Intent Extraction from Natural Language Interactions」が,Best
Student PaperにはYangyu Huらの「Mobile App Squatting」が選ばれました.
ここでは後者の論文を紹介します.この論文で研究対象となっているsquatting app
とは,スマートフォン用の公式アプリとアプリ名やパッケージ名を似せて公開されている
アプリのことで,ユーザによる誤ったインストールを狙ってマルウェアが仕込まれたり
しています.著者らの目的は,squatting appを高精度で検索可能なツール(AppCrazy)
の開発と,AppCrazyを使ったsquatting appを取り巻く現状の大規模な調査です.
AppCrazyを使うことで,例えば「Facebook」という公式アプリを入力として与えると,
squatting appのアプリ名として使われそうな「Faceboook」や「facebook」という
候補が大量に生成され,それらの候補で検索することでsquatting appを発見することが
可能になります.TheWebConfで受賞するような論文ともなると,候補の生成のための
エレガントなモデルを提案しているのかと思いきや,予備実験で得られたsquatting
appの例を基に11種類のルールベースで候補を生成するという,意外にも「泥臭い」方法
でツールが開発されていました(「Faceboook」と「facebook」はそれぞれ「同じ
アルファベットが2個続いていたらもう1個挿入する」「大文字を小文字に変換する」という
ルールで生成されています).そのようにして開発したAppCrazyを使った大規模な調査に
より,squatting appではアプリ名やパッケージ名としてどのルールが使われることが
多いのか,などを調査しています.このように,技術的には必ずしも深いことをしていなくても,
社会的な問題に着目して大規模に調査しているという点で,TheWebConfらしい論文の一つ
と言えるのではないかと思い,紹介させていただきました.Best Student Paperに
選ばれていることからも,TheWebConfではこのような論文を高く評価する土壌ができて
いるのだなと感じました.

TheWebConf2020では,本会議で採択された論文の発表だけでなく,WorkshopやTutorial,
Keynoteなど,会議中のおよそすべての発表が下記URLのYouTubeのチャンネル上で公開されていて,
参加登録をしていなくても誰でも視聴可能となっています.「再生リスト」では動画がリサーチ
トラックやWorkshopごとにリストにまとめられていて,興味のあるトラックの発表をまとめて
見るといったこともでき非常に使い勝手も良いので,ぜひ一度ご覧になってください.
https://www.youtube.com/channel/UCSmzbolRjHCwATpx2mwrNtg

また,今回私は6月27日に開催された第36回先端的データベースとWeb技術動向講演会(ACM
SIGMOD 日本支部第73回支部大会)にて,TheWebConf2020の参加報告の発表を行う機会に
恵まれました.TheWebConfで発表された論文の全体的な雰囲気を感じていただくことを意図して,
12種類のリサーチトラックのうち10種類から論文を1本ずつ選び,各論文を5分程度で紹介させて
いただきました.発表に使用したスライドから,その10本の論文紹介を含む一部を抜粋したものを
下記URLにアップロードしましたので,よろしければご覧ください.
https://www.slideshare.net/KosetsuTsukuda/73rd-sigmodj-thewebconf2020report

来年のTheWebConfはスロベニアのリュブリャナで,4月19日から23日に開催される予定です.
General Chairからは,オフラインとオンラインのハイブリッド型になるだろう,という話が
出ていました.論文の投稿締め切りは例年10月となっていますので,ぜひ投稿をご検討ください.

(佃 洸摂 産業技術総合研究所)

-----------------------------------------------------------------------

■ 4 ■ Association for Computational Linguistics (ACL2020) General Overview
Happy Buzaaba (University of Tsukuba)

I had the opportunity to attend the ACL2020, the 58th annual meeting of
the Association for Computational Linguistics (ACL) which was initially
scheduled to take place from July 5th to July 10th in Seattle, Washington
went fully virtual this year. This is a brief overview of ACL2020 meeting.
In this brief report I discuss some overall trends. The list is not exhaustive,
and is based on my research interests. I recommend also checking out the
best papers at:
https://acl2020.org/blog/ACL-2020-best-papers/

1. About ACL2020

Let's start by looking at some overall statistics from ACL. There were
2 Keynote Speakers, 8 tutorials, and 20 workshops. Out of 3,429 submitted
papers, 779 were accepted making the acceptance rate to be 22.7%. Of the
779 accepted papers,571 were long papers and 208 were short papers. This
year, the tracks that received the highest number of submissions were
Machine Learning for NLP, Dialogue and Interactive Technologies, Machine
Translation, Information Extraction and NLP Applications. Each of the
tracks had over 200 submissions. Overall, the “machine learning” track
is growing steadily as compared to previous years, many papers presented
general-purpose models which are evaluated on multiple tasks.

2. Trends at ACL2020

Of the 779 submitted papers, 484 mention the word "English", also 445 of
the 779 papers, mention the word "BERT". Either BERT is about as popular
as the English language in NLP at ACL2020 or we are failing at following
the BendeRule said Graham Neubig Prof at CMU.

To my observation which might be biased by my choice of papers, there was
a common pattern at ACL in the published papers. Many papers were (1) improving
the existing architecture/model or (2) applying it to various tasks. There
were several papers that focused on training models with less supervision.
(shifting away from huge labeled datasets)

3. Keynotes

There were two invited talks; (1) "Rewriting the Past: Assessing the Field
through the Lens of Language Generation" by Kathleen R. McKeown Professor
of Computer Science at Columbia University, and (2) "Cognitive and computational
building blocks for more human-like language in machines" by Josh Tenenbaum
Professor of Computational Cognitive Science at MIT.

In her talk, Kathleen talks about the tremendous advances in the field of
natural language processing through the use of neural networks. She examines
the state of the NLP field and its link to the past. Particularly where
neural networks have been successful, and where approaches from the past
might still be valuable, and where we need to turn in the future if we are
to go beyond current success.

Josh Tenenbaum on the other side, talks about steps towards capturing human
learning abilities using hierarchical Bayesian models, probabilistic programs,
program induction, and neuro-symbolic architectures. He shows examples of
how these tools have been applied in both cognitive science and AI contexts,
and how they might be useful in building more human-like language, learning
and reasoning in machines.

4. Tutorials

I found the tutorial on "Multi-Model Information Extraction from Text,
Semi-structured, and Tabular Data" to be interesting particularly for the
data mining and database community (DBSJ). In this tutorial the presenters
talk about methods for extracting information from unstructured text,
template-based semi-structured webpages, tables and converting it to a
structured form.

In particular, the presenters take a holistic view towards information
extraction, explore the challenges and solutions developed to address different
forms of text. They examine approaches targeted at unstructured text that
largely rely on learning syntactic or semantic textual patterns, approaches
targeted at semi-structured documents that learn to identify structural
patterns in the template, and approaches targeting web tables which rely
heavily on entity linking and type information.

I also attended the tutorial on "Open Domain Question Answering" which I
found equally interesting for my thesis. The tutorial provides a comprehensive overview of the cutting-edge research in open-domain question answering (QA).
They start by giving a brief historical background, discuss the basic setup
and core technical challenges of the research problem, and then describe
modern datasets with the common evaluation metrics and benchmarks. The focus
then shifts to cutting-edge models proposed for open-domain QA, including
two-stage retriever-reader approaches, dense retriever and end-to-end training. The talk concludes with hybrid approaches using both text and large knowledge base.

5. Thoughts about the Future of NLP reflecting on current achievements and limitations

This years track theme was "Taking Stock of Where We've Been and Where We're
Going". Kathy McKeown’s keynote touched upon this point, saying that we need to stop solving datasets and start solving problems that matter. Current NLP focusses on training models on huge amounts of data that may not learn anything from the amounts of data that are available to people. And that these models find statistical patterns in the data that humans might consider irrelevant. Also, in her Lifetime Achievement Award interview, Bonnie Webber stressed the need to look at the data and analyze the model errors. Even something as trivial as looking at both precision and recall instead of only the aggregated F1 score can help in understanding the model’s weaknesses and strengths. Bonnie also said that neural nets are capable of solving tasks that don’t require deep understanding, but that a more challenging
goal is to recognize implicit implications and world knowledge.

6. Conclusion and additional thoughts

Having a chance to attend such a top tier conference was a great opportunity. Overall the papers and keynotes at the conference strengthened my feeling that despite the tremendous progress over the years, a positive change and a great way to encourage papers that don’t focus on small immediate gains but looking at the
big picture is the way forward.

Reference
[1]. ACL Blog https://acl2020.org/blog/
[2]. Kathleen R. McKeon & Josh Tenebaum Keynotes talks https://acl2020.org/program/keynotes/
[3]. Danqi Chen and Scott Yih “Open Domain Question Answering”
https://github.com/danqi/acl2020-openqa-tutorial
[4]. Hannaneh Hajishirizi, Xin Luna Dong, Colin Lockard, Prashant Shiralkar “Multi-Modal Information Extraction from Text, Semi-Structured, and Tabular Data”
 https://sites.google.com/view/acl-2020-multi-modal-ie
[5]. Ellie Pavlick RepL4NLP workshop talk https://sites.google.com/view/repl4nlp2020/home


Happy Buzaaba (The University of Tsukuba)


---
Hiroaki Shiokawa, Ph.D
University of Tsukuba
Email: shiokawa [at] cs.tsukuba.ac.jp
TEL: +81-29-853-5524