dbjapanメーリングリストアーカイブ(2020年)
[dbjapan] DBSJ Newsletter Vol. 13, No. 4: SoC, SIGMOD, TheWebConf, ACL
- To: dbjapan [at] dbsj.org
- Subject: [dbjapan] DBSJ Newsletter Vol. 13, No. 4: SoC, SIGMOD, TheWebConf, ACL
- From: Hiroaki Shiokawa <shiokawa [at] cs.tsukuba.ac.jp>
- Date: Sat, 1 Aug 2020 00:47:27 +0900
- Reply-to: shiokawa [at] cs.tsukuba.ac.jp
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ┃ 日本データベース学会 Newsletter ┃ 2020年8月号 ( Vol. 13, No. 4 ) ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 本号では6月に開催されました第11回ソーシャルコンピューティングシンポジウムの開催報告, ならびに4月から7月までに開催されたSIGMOD, The Web Conference, ACLの参加報告 記事をご寄稿いただきました. 本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容 についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください. 日本データベース学会 電子広報委員会 (担当編集委員 塩川 浩昭) ======================================================================== ---- 目次 ---- 1.ソーシャルコンピューティングシンポジウム(SoC2020)開催報告 金 京淑(産業技術総合研究所) 2.SIGMOD 2020 参加報告 駒水 孝裕(名古屋大学) 3.TheWebConf2020 参加報告 佃 洸摂(産業技術総合研究所) 4.ACL2020 General Overview Happy Buzaaba (University of Tsukuba) ======================================================================== ■ 1 ■ ソーシャルコンピューティングシンポジウム(SoC2020)開催報告 金 京淑(産業技術総合研究所) 本年度の第11回ソーシャルコンピューティングシンポジウム(SoC2020)は、新型コロナ ウイルス感染症の影響でオンライン会議システムによるウェブ会議形式で開催されました。 午前中のセッションでは10件の一般発表が、午後のセッションでは2件の招待講演が行われ、 盛況のうちに幕を閉じました。 SoCでは学生の優秀な発表に対して学生奨励賞を授与しました。厳正な審査の上、 今年度は以下の2名の発表者を表彰しました。おめでとうございます。 ○荒澤孔明様(室蘭工業大学) 行動ログの機械学習を用いた他ユーザのSNS投稿に対するお気に入り登録予測 ○藤本 和様(九州大学) 実況ツイートに対する文字レベルオートエンコーダを利用したスポーツ中継の状況推定 本シンポジウムでも魅力的な招待講演者を多数お招きしました。今回は、新型コロナ ウイルス感染症対策としてテレワークの普及や、ウェブ会議、オンライン打ち合わせ などが増加していることから、Withコロナ時代のソーシャルコンピューティングの 取り組みについて、下記の2件の招待講演を実施しました。 合田和生 先生(東京大学)と 吉田尚史 先生(駒澤大学)による「DEIM2020の オンライン開催:激動の20日間と痛感したこと」のご講演では、DEIM2020を運営する 実行委員会の立場から、オンライン会議への転換やそれに伴う準備、運営の経験を報告 するとともに、新たな時代の学術集会の在り方や新たな展開の可能性についてお話し いただきました。DEIM2020は、当初は福島県磐梯熱海に於いて例年のように合宿形式 で開催することを予定していたものの、新型コロナウイルス感染症が急激に拡大する 状況に鑑み、会議場での開催を中止し、これに代えてオンライン会議システムを用いて 開催されました。合田先生は、1月末から2月17日のオンライン開催決定までの状況や、 オンライン開催という「壮大な実験」のため国立情報学研究所(NII)と協力し、 オンライン会議の準備から開催までの流れをご紹介いただきました。また、吉田先生からは、 オンライン会議システムの運営に必要な具体的な準備事項や、3回に渡る実証実験、 進行マニュアルの作成など、オンライン会議運営の経験に関してご説明いただきました。 特に、DEIM2020によって得られた知見を集約して作成されたオンライン会議の進行 マニュアルは、本シンポジウムの準備においても大いに参考となりました。渡辺健太郎 氏(産業技術総合研究所)による「拡張テレワークとその展望」のご講演
では、新型コロナウイルスの社会・産業への影響が長期化している中、Withコロナ・ Postコロナ社会における事業継続、並びに新しい働き方の一つの方向性として「拡張 テレワーク」という新たなコンセプトについてご紹介いただきました。産総研人間拡張 研究センターで取り組んでいる研究内容とともに、⼈が集まらなくても事業継続できる 環境を実現する拡張テレワーク技術の実装にあたり、⼈間中⼼のアプローチと多様性へ の配慮の重要性についてお話しいただきました。今後の産業や仕事の変化、その環境下 におけるソーシャルコンピューティング技術の役割と可能性を考えることができ、 大変刺激的なご講演でした。 (金 京淑 産業技術総合研究所) ----------------------------------------------------------------------- ■ 2 ■ 国際会議 SIGMOD 2020 参加報告 駒水 孝裕(名古屋大学) 2020年6月14日から19日にかけて開催された SIGMOD 2020 に参加しました. ご存知の通り,SIGMOD がデータベースに関するトップ国際会議のひとつです. SIGMOD 2020 は当初,アメリカ合衆国オレゴン州のポートランドで開催される 予定でしたが,新型コロナウイルス感染症 (COVID-19) の影響によりオンライン 開催となりました.それに伴い,発表者の参加費が引き下げられただけでなく, 聴講での参加は無料となりました.今回の SIGMOD の論文採択率は,Research Track が 26.9% (123/458) と例年よりも高い採択率となりました.参加者は およそ 3,000名で60カ国以上からの参加がありました. SIGMOD の論文はどれもレベルが高く内容が濃く,ここで内容を語るより各方で 論文を読まれた方が有益かと思いますので,ここでは Best Paper に選出された 論文を列挙するにとどめたいと思います.今回の SIGMOD では,2 件の Best Paper が選出されました.以下にそれぞれのタイトルを列挙します.- ShapeSearch: A Flexible and Efficient System for Shape-based Exploration of Trendlines
- Pump Up the Volume: Processing Large Data on GPUs with Fast Interconnects 前者は,データ分析時に,データのパターン(e.g., 上がって下がってまた上がる) を表現する代数 shape querying algebra を定義しています.ユーザは,この パターンを (1) 手書き,(2) 自然言語,あるいは(3) 正規表現を用いて記述し, システムがユーザの記述を上記代数に変換し実行します.この論文では,これをリアル タイムで実行するためのエンジンと問合せ最適化を提案しています.ビジネスミーティングでは,この論文はBeautiful だと評されていました.後者は,GPU 使用時のボトルネック
であるデータ転送を改善した NVLink 2.0 についての詳細な分析を行い,GPU の メモリサイズを超えるハッシュ結合の高速化手法を提案しています. SIGMOD のビジネスミーティングでは,論文賞と各種報告が行われました.査読に ついての報告で,"review to accept" というキーワードがしきりに使われて いました.これまでの査読は "review to reject"(落とすための査読)となって おり,多くの良い論文を採択できていなかったことが背景にあるようです.これが 上述の高採択率につながったようです.また,SIGMOD2019 のときに,良い論文を すくい上げる意味で,フルペーパ採択に至らないが良い論文を short paper として 採択することが提案され,今回からshort paper としての採択が実現しました. 今年は 21件が short paper として採択されています.2021年の SIGMOD では, 採択論文の幅をさらに広げるためにデータサイエンスや他分野のアプリケーションや 問題を取り込む新たなカテゴリが新設されます.査読については下記問題が上げられ, 改善が必要だと報告されていました. - author feedback が査読に反映されていない- VLDBで reject された論文が投稿された際に同じ査読者が割り当てられ,同じ査読をしてしまう(査読者の割当システムの問題)
- 分野が広がってしまい,適切な査読者が見つからない- 他の報告では,経済的には問題なく収入が得られている,SIGMOD 会員数が減少している,などが報告されました.
オンラインの国際会議の開催方法はいろいろなトライがされています.今回の SIGMOD
では,セッションは Zoom Webinar で行われました.発表は,発表者が事前に録画したものを開催側がZoom を介して再生する方法が取られました.質疑応答は,セッション時
に発表者をパネリストとして登録し,Q&A 欄に入力された質問に口頭で答える方法が 取られました.同時に,Slack が用意され,セッションごとにチャネルが設けられて いるので,「オフライン質問」が Slack を介して行われました.参加者の交流にはZoomtable が用いられました.知り合いとの雑談用に,Gatherというサービスを用いて
プライベートなチャットルームが作成できるようになっていました.今回の SIGMOD も他のオンライン会議にもれず,発表やイベントの録画がオンラインで公開されますので, 参加できなかった方も発表やキーノートを見ることができます. (駒水 孝裕 名古屋大学) ----------------------------------------------------------------------- ■ 3 ■ TheWebConf2020 参加報告 佃 洸摂(産業技術総合研究所) 2020年4月20日から24日にかけてオンラインで開催された,Webに関する代表的な 国際会議であるThe Web Conference 2020(TheWebConf2020)に参加しました. この会議は2017年まではInternational World Wide Web Conferenceという 名称でしたが,通称であるWWWという会議名が,特にSNS上でvisibilityが低いなどの 理由から,2018年よりThe Web Conferenceに名称を変更して開催されています. 論文投稿時には,12種類あるリサーチトラックから著者が投稿先のトラックを選択する ようになっています.投稿数はWeb Mining,User Modeling,Social Network Analysisの3トラックが他の9トラックよりも圧倒的に多いという傾向が昨年に続いて 見られました.投稿数の少ないトラックに投稿すれば採択されやすいということはなく, いずれのトラックでもロング・ショートともに採択率がおよそ20%になるように調整されて いるそうです.会議は当初,台湾の台北で開催される予定でしたが,開催時期が4月と いうこともあり,新型コロナを取り巻く情勢の変化とともに開催形式が二転三転し, 最終的にはZoomによる完全オンライン開催となりました.このあたりの紆余曲折は 下記URLの会議のプレスリリースにも掲載されています. https://www2020.thewebconf.org/press 本会議で発表された論文から,Best PaperにはNikhita Vedulaらの「Open Intent Extraction from Natural Language Interactions」が,Best Student PaperにはYangyu Huらの「Mobile App Squatting」が選ばれました. ここでは後者の論文を紹介します.この論文で研究対象となっているsquatting app とは,スマートフォン用の公式アプリとアプリ名やパッケージ名を似せて公開されている アプリのことで,ユーザによる誤ったインストールを狙ってマルウェアが仕込まれたりしています.著者らの目的は,squatting appを高精度で検索可能なツール(AppCrazy)
の開発と,AppCrazyを使ったsquatting appを取り巻く現状の大規模な調査です. AppCrazyを使うことで,例えば「Facebook」という公式アプリを入力として与えると, squatting appのアプリ名として使われそうな「Faceboook」や「facebook」という候補が大量に生成され,それらの候補で検索することでsquatting appを発見することが
可能になります.TheWebConfで受賞するような論文ともなると,候補の生成のための エレガントなモデルを提案しているのかと思いきや,予備実験で得られたsquatting appの例を基に11種類のルールベースで候補を生成するという,意外にも「泥臭い」方法 でツールが開発されていました(「Faceboook」と「facebook」はそれぞれ「同じ アルファベットが2個続いていたらもう1個挿入する」「大文字を小文字に変換する」という ルールで生成されています).そのようにして開発したAppCrazyを使った大規模な調査により,squatting appではアプリ名やパッケージ名としてどのルールが使われることが
多いのか,などを調査しています.このように,技術的には必ずしも深いことをしていなくても, 社会的な問題に着目して大規模に調査しているという点で,TheWebConfらしい論文の一つ と言えるのではないかと思い,紹介させていただきました.Best Student Paperに 選ばれていることからも,TheWebConfではこのような論文を高く評価する土壌ができて いるのだなと感じました. TheWebConf2020では,本会議で採択された論文の発表だけでなく,WorkshopやTutorial, Keynoteなど,会議中のおよそすべての発表が下記URLのYouTubeのチャンネル上で公開されていて, 参加登録をしていなくても誰でも視聴可能となっています.「再生リスト」では動画がリサーチ トラックやWorkshopごとにリストにまとめられていて,興味のあるトラックの発表をまとめて 見るといったこともでき非常に使い勝手も良いので,ぜひ一度ご覧になってください. https://www.youtube.com/channel/UCSmzbolRjHCwATpx2mwrNtg また,今回私は6月27日に開催された第36回先端的データベースとWeb技術動向講演会(ACMSIGMOD 日本支部第73回支部大会)にて,TheWebConf2020の参加報告の発表を行う機会に
恵まれました.TheWebConfで発表された論文の全体的な雰囲気を感じていただくことを意図して, 12種類のリサーチトラックのうち10種類から論文を1本ずつ選び,各論文を5分程度で紹介させて いただきました.発表に使用したスライドから,その10本の論文紹介を含む一部を抜粋したものを 下記URLにアップロードしましたので,よろしければご覧ください. https://www.slideshare.net/KosetsuTsukuda/73rd-sigmodj-thewebconf2020report 来年のTheWebConfはスロベニアのリュブリャナで,4月19日から23日に開催される予定です.General Chairからは,オフラインとオンラインのハイブリッド型になるだろう,という話が
出ていました.論文の投稿締め切りは例年10月となっていますので,ぜひ投稿をご検討ください. (佃 洸摂 産業技術総合研究所) ----------------------------------------------------------------------- ■ 4 ■ Association for Computational Linguistics (ACL2020) General Overview Happy Buzaaba (University of Tsukuba) I had the opportunity to attend the ACL2020, the 58th annual meeting of the Association for Computational Linguistics (ACL) which was initially scheduled to take place from July 5th to July 10th in Seattle, Washington went fully virtual this year. This is a brief overview of ACL2020 meeting.In this brief report I discuss some overall trends. The list is not exhaustive,
and is based on my research interests. I recommend also checking out the best papers at: https://acl2020.org/blog/ACL-2020-best-papers/ 1. About ACL2020 Let's start by looking at some overall statistics from ACL. There were 2 Keynote Speakers, 8 tutorials, and 20 workshops. Out of 3,429 submitted papers, 779 were accepted making the acceptance rate to be 22.7%. Of the 779 accepted papers,571 were long papers and 208 were short papers. This year, the tracks that received the highest number of submissions were Machine Learning for NLP, Dialogue and Interactive Technologies, Machine Translation, Information Extraction and NLP Applications. Each of the tracks had over 200 submissions. Overall, the “machine learning” track is growing steadily as compared to previous years, many papers presented general-purpose models which are evaluated on multiple tasks. 2. Trends at ACL2020 Of the 779 submitted papers, 484 mention the word "English", also 445 of the 779 papers, mention the word "BERT". Either BERT is about as popular as the English language in NLP at ACL2020 or we are failing at following the BendeRule said Graham Neubig Prof at CMU. To my observation which might be biased by my choice of papers, there wasa common pattern at ACL in the published papers. Many papers were (1) improving
the existing architecture/model or (2) applying it to various tasks. There were several papers that focused on training models with less supervision. (shifting away from huge labeled datasets) 3. Keynotes There were two invited talks; (1) "Rewriting the Past: Assessing the Field through the Lens of Language Generation" by Kathleen R. McKeown Professorof Computer Science at Columbia University, and (2) "Cognitive and computational
building blocks for more human-like language in machines" by Josh Tenenbaum Professor of Computational Cognitive Science at MIT. In her talk, Kathleen talks about the tremendous advances in the field of natural language processing through the use of neural networks. She examines the state of the NLP field and its link to the past. Particularly where neural networks have been successful, and where approaches from the past might still be valuable, and where we need to turn in the future if we are to go beyond current success. Josh Tenenbaum on the other side, talks about steps towards capturing humanlearning abilities using hierarchical Bayesian models, probabilistic programs,
program induction, and neuro-symbolic architectures. He shows examples of how these tools have been applied in both cognitive science and AI contexts, and how they might be useful in building more human-like language, learning and reasoning in machines. 4. Tutorials I found the tutorial on "Multi-Model Information Extraction from Text, Semi-structured, and Tabular Data" to be interesting particularly for the data mining and database community (DBSJ). In this tutorial the presenters talk about methods for extracting information from unstructured text, template-based semi-structured webpages, tables and converting it to a structured form. In particular, the presenters take a holistic view towards informationextraction, explore the challenges and solutions developed to address different
forms of text. They examine approaches targeted at unstructured text that largely rely on learning syntactic or semantic textual patterns, approaches targeted at semi-structured documents that learn to identify structural patterns in the template, and approaches targeting web tables which rely heavily on entity linking and type information. I also attended the tutorial on "Open Domain Question Answering" which Ifound equally interesting for my thesis. The tutorial provides a comprehensive overview of the cutting-edge research in open-domain question answering (QA).
They start by giving a brief historical background, discuss the basic setup and core technical challenges of the research problem, and then describe modern datasets with the common evaluation metrics and benchmarks. The focus then shifts to cutting-edge models proposed for open-domain QA, includingtwo-stage retriever-reader approaches, dense retriever and end-to-end training. The talk concludes with hybrid approaches using both text and large knowledge base.
5. Thoughts about the Future of NLP reflecting on current achievements and limitations
This years track theme was "Taking Stock of Where We've Been and Where We'reGoing". Kathy McKeown’s keynote touched upon this point, saying that we need to stop solving datasets and start solving problems that matter. Current NLP focusses on training models on huge amounts of data that may not learn anything from the amounts of data that are available to people. And that these models find statistical patterns in the data that humans might consider irrelevant. Also, in her Lifetime Achievement Award interview, Bonnie Webber stressed the need to look at the data and analyze the model errors. Even something as trivial as looking at both precision and recall instead of only the aggregated F1 score can help in understanding the model’s weaknesses and strengths. Bonnie also said that neural nets are capable of solving tasks that don’t require deep understanding, but that a more challenging
goal is to recognize implicit implications and world knowledge. 6. Conclusion and additional thoughtsHaving a chance to attend such a top tier conference was a great opportunity. Overall the papers and keynotes at the conference strengthened my feeling that despite the tremendous progress over the years, a positive change and a great way to encourage papers that don’t focus on small immediate gains but looking at the
big picture is the way forward. Reference [1]. ACL Blog https://acl2020.org/blog/[2]. Kathleen R. McKeon & Josh Tenebaum Keynotes talks https://acl2020.org/program/keynotes/
[3]. Danqi Chen and Scott Yih “Open Domain Question Answering” https://github.com/danqi/acl2020-openqa-tutorial[4]. Hannaneh Hajishirizi, Xin Luna Dong, Colin Lockard, Prashant Shiralkar “Multi-Modal Information Extraction from Text, Semi-Structured, and Tabular Data”
https://sites.google.com/view/acl-2020-multi-modal-ie[5]. Ellie Pavlick RepL4NLP workshop talk https://sites.google.com/view/repl4nlp2020/home
Happy Buzaaba (The University of Tsukuba) --- Hiroaki Shiokawa, Ph.D University of Tsukuba Email: shiokawa [at] cs.tsukuba.ac.jp TEL: +81-29-853-5524
- Prev by Date: [dbjapan] DBSJ Webサーバ メンテナンスのお知らせ
- Next by Date: [dbjapan] CFP : 情報処理学会論文誌データベース(TOD89)
- Index(es):