集团领导:Maciej Janicki,卡蒂·基础,玛丽收

该集团将进行研究的芬兰人的口头民间诗歌全集:芬兰美国堪萨斯州的Vanhat Runot(旧的芬兰人民的诗),除了在卡累利阿芬兰包含材料,Izhorian Votic语言,Eesti Regilaulude Andmebaas(爱沙尼亚Runosongs”数据库)。语料库包含文字记录的原始民间诗歌,包括史诗,歌词,偶尔的歌曲(如婚礼歌曲)和魅力。

从计算的角度来看,大型的数据集具有挑战性,因为变异在正字法和方言。歌曲包含重复出现的主题,人物,公式(固定短表达式)和重叠的文本片段,但是由于表面变化识别这些类似点是一个无监督语言处理研究问题。

数据,将提供工具和监督项目成员:公式化的互文性,主题网络和诗意的跨区域文化变异的芬兰人的口头民间诗歌(过滤器)。该组织可以选择专注于其中一个数据集(芬兰和爱沙尼亚语),或者是两者的比较。建议至少一半的组织高水平在芬兰或爱沙尼亚(取决于所选择的数据集)。

可能的研究问题包括:

  • 诗意的米跨区域的变化
  • 主题的分布取决于地区和收藏家
  • 出版诗集的影响的口头传统
  • 英雄国和原始收集诗歌之间的关系
  • 定量的比较出现的一个特定的主题或字符(例如Vainamoinen描述/指怎么样?诗一般用于告诉“唱歌决斗”的故事吗?用什么公式在魅力防火/铁/冷吗?)

在以下方面专业技能或兴趣尤其有用:

  • 民谣中的记述都,口述传统
  • 芬兰和爱沙尼亚的语言学
  • 比较语言学、方言学
  • 文学研究
  • 无人监督的自然语言处理

集团领导:Antti Kanner,Pihla Toivanen,Eliisa Vainikka,Riikka时代

普遍接受,社交媒体的出现,特别是Facebook和Twitter,改变和挑战的媒体格局重要的方法。然而,由于并发媒体和社交媒体数据的稀疏性,社交媒体之间的相互作用的许多方面和传统新闻媒体一直优雅的离开了。这已经发生了改变,Twitter已经提高了其数据的可访问性为研究目的。与此同时,流的项目已经设法获得完整的转储的新闻输出多个主要的芬兰媒体。

该集团试图找到不同的方法来研究数字newsmedia新闻之间的交互和Twitter。主题将围绕存在的比较和讨论两个公民倡议活动在社会媒体和政治newsmedia:一个用于同性婚姻(Tasa-arvoinen avioliittolaki 2017),一个用于法律性别识别(Translaki)。

工作流和分析将适合捕捉动态和交互有关,例如:

  • 演员(立法者,公民社会组织、意见领袖)
  • 辩论
  • 连接和信息的流动
  • 增加互动的媒体与新闻的观众
  • 议程设置在Twitter, newsmedia和收音机

主要计算的挑战这一主题有不同现象起源于Twitter数据映射到newsmedia数据,反之亦然。例如,这包括

  • 检测同一主题在Twitter消息和newsmedia文章
  • 预测newsmedia文章导致Twitter上的讨论
  • 预测的变化newsmedia Twitter的可见性活动
  • 识别关键的演员和盖茨的信息流,如强大的标签和相关newsmedia流派

组的数据包括所有的文章《赫尔辛基新闻报》(芬兰最大侧向报纸),手机(公共广播公司),Iltalehti(国家小报)和STT(芬兰的主要新闻机构)在2011年至2017年之间,以及手机的元数据的广播和电视广播。我们也访问Twitter的API的历史。

集团领导:贾尼Marjanen,莉迪亚Pivovarova,阿克塞尔Jean-Caurant,马丁Gasteiner

DHH21国际报纸小组将开发一个多语言的情况下,调查哪些地方主导新闻报道在1914年和1918年之间的大战。集团将识别与战争相关的新闻文章和提取的名字的地方为了发现战争的努力被覆盖在大型多语言的历史新闻。

数字化报纸提供的项目”NewsEye:旧报纸的数字侦探”。NewsEye收集包括数字化报纸从奥地利、法国和芬兰在五种语言,即德国、法国、芬兰、瑞典语,和英语。我们假设组中至少有一个人会知道这些语言,尽管它不需要知道任何加入集团(英语除外)。除了数据收集,NewsEye提供文本处理工具,可以在用户接口或API,尽管可以使用别的分析集合。

目的不是描述不同的战争和战争的努力,但比较位置似乎相关的观点取决于不同的语言文件。赫尔辛基、维也纳和巴黎通过不同渠道获得新闻。因此,想象力的伟大的战争期间,事情发生在这些地方看起来不同。通过系统的比较,我们可以了解战争的虚空间。

可能的任务是:

  • 确定关键特性在战争报道在巴黎、维也纳和赫尔辛基。
  • 手动评估报告在不同国家关于著名的事件,如1914年萨拉热窝暗杀,阿登战役1914年,1914年Lodź战役,1915年Przemyśl围攻,1916索姆河战役,1918年西班牙流感的暴发。
  • 创建一个方法来自动识别有关战争的文章。
  • 评估方法的精度和召回。
  • 测试适用性的现代NLP历史数据的工具。
  • 改进,知名度和实体的“技术的结合与发展。
  • 从选择中提取命名实体的文章和链接的地方在地图上
  • 命名实体在动态网络中提取。
  • 分析做的位置出现在报纸和比较他们的史学伟大的战争。
  • 不同地图上位置的动态可视化,可视化技术的实现。
  • 人们异常源的报纸与他们的历史信息,联系和信息渠道。
  • 制定重要的解释结果。

集团领导:Mikko Tolonen,Iiro Tiihonen,城镇Vaara

在赫尔辛基计算历史组我们已经创建了一个数据集的文本重用十八世纪集合在线(出版)。这个数据集上运行爆炸是由EEBO-TCP ECCO和回避OCR-problems经常阻碍出版的文本挖掘。我们跟踪每种情况下的文本字符串的重用50个字符以上总计数百万文本重用情况。

这个单独的组的任务是使用这个文本重用数据集研究十八世纪的互文性通过使用英语翻译皮埃尔·贝耳的历史和重要的字典。这不是第一次数字人文项目集中在文本案例重用字典(Allen et al . 2010;Leca-Tsiomis 2013)。这个项目的目的是也从这些早期经验中学习。

研究兴趣

这组特别适合学生计算背景。我们的目标是创建工作流,让使用的任务和分析文本重用数据更方便。计算机科学家加入该组织有机会开发工具,解决具有挑战性的历史数据,并有助于真正的研究问题的历史文本重复使用。开发工具将有很大的潜力在后来的分析使用数据集之外的单独的项目。

数据集也很有趣的从十八世纪的角度研究。我们将关注修复的概念,通过研究在大规模的文本重用鲜为人知的现象。我们还将研究作为智力活动的翻译和转换知识的兴趣从作者出版网络作者的角色在哪里见过在不同的光。

可能的任务来体现在集团工作

工作流研究文本重用贝耳的字典

  • 丰富的元数据在数据集内,特别是通过反复重用设计一种方法来识别、区分相似的文本片段。
  • 探索整个数据集的创建工具和理解的关系。这可能需要交互式网络可视化的数据有限,例如作者和出版年。
  • 创建工具,探索具体的文本,他们与其他文本数据集的关系。的工具应该帮助理解上下文重用出现,在原始文本和重用的社区网络。
  • 统计和网络分析的兴趣点与探索的工具。

研究的文本重用现象一般通过翻译的情况下贝耳的字典。

  • 我们的目的是比较不同版本的文本重用贝耳的翻译词典(尤其是1710年版和1734 - 1738(5卷)和1734 - 1741年(十卷)版本;从最基本的问题有多少不同类型的文本重用的实例为每个标题吗?
  • 我们也将形成基本指标研究文本重用一般有多普遍?我们可以画平均频率工作是引用其他工作吗?有多少不同的平均工作吗?
  • 我们将研究特别是贝耳字典的情况下部分大规模印刷。目标是提出一个类型学不同种类的重用贝耳的字典,也可扩展到其他情况下。这将使我们能够回答这样的问题:如何文本重用贝耳的字典相比其他规范的工作吗?

网络出版的贝耳的字典

  • 把握的基本原则后重用不同版本的贝耳的字典贝耳的集团将提取不同出版网络词典和研究如果有出版商重用文本相比,他们发布的证据。
  • 我们旨在研究意识形态意义的文本重用贝耳的字典和发布网络。

潜在的集团成员的引用和进一步阅读

艾伦,盖,查尔斯·库尼Stephane Douard拉塞尔•霍顿马克·奥尔森,罗伯特•莫格伦•罗伊2010年罗伯特看。。掠夺哲学家:识别来源的《百科全书》。杂志协会的历史和计算13:http://hdl.handle.net/2027/spo.3310410.0013.10

贝耳,皮埃尔。2000。政治的作品反式。莎莉·l·詹金森,剑桥:剑桥大学出版社。

贾斯汀冠军,2008年。“贝耳的英语启蒙,”皮埃尔·贝耳(1647 - 1706),le启蒙哲学家德鹿特丹:哲学、宗教和接待,eds。van Bunge和机器人,布里尔,2008:175 - 196。

Leca-Tsiomis,玛丽。2013。的使用和滥用数字人文历史上的想法:如何学习《百科全书》,欧洲的历史观念,39:4,467 - 476 DOI: 10.1080 / 01916599.2013.774115

Labrousse,伊丽莎白。1983。贝耳反式。丹尼斯Potts。牛津大学和纽约:牛津大学出版社。

列侬,托马斯。2008。皮埃尔贝耳斯坦福哲学百科全书:https://plato.stanford.edu/entries/bayle/

集团领导:马蒂·拉梅拉,Mikko Koho,Jouni Tuominen

该集团在芬兰的议会辩论集中在20世纪。该集团的目标是学习如何使用公共语音数据,在这种情况下议会相关公开数据,过去的研究紧迫的社会问题。此外,该集团的发展和使用工具,允许确定主题,主题,以及地名的辩论,并分类讨论通过使用扬声器等相关元数据信息。芬兰数据是议会语料库和相关开放数据标准在国际上发达国家和使用。

议会的主要立法机构和决策的关键的地方在我们的民主社会和政治讨论。议会是国家竞技场的演讲和辩论,而议会(国会议员)的成员,“人民代表”,在地区选举区。当事人和国会议员与政治意识形态相一致,也与城市中心等地理区域,农村,或者他们的家乡。此外,位置标记在讨论政策问题,如环境或外交政策,参照前苏联切尔诺贝利也可以发挥不同的修辞作用。,因此,将研究议会政治的不同方式和地点是相关的。该集团可以从几个角度看待问题在他们的项目中,包括:

  • 表示和地点:什么“地方”的国会议员,“人们制成的微型”,代表什么?
  • 关键社会问题和地点:环境政策是如何等问题,贫困,或国际关系框架通过地方议会辩论和地理吗?
  • 政党和地点:到什么程度的政党,国会议员或子组,如职业团体认为自己与某些地理区域,城市,还是农村?
  • 宣传和地点:国会议员和辩论有什么可见的各种公共领域,也就是说,在当地,区域,和国家报纸吗?

议会辩论材料和相关的元数据是由项目提供的语义议会- ParliamentSampo:相关公开数据服务为研究政治文化(SEMPARL) (https://seco.cs.aalto.fi/projects/semparl/en/)。随着议会材料主要是在芬兰,芬兰建议虽然不是强制的基本知识;计算任务,特别地,可以用英语进行。除了数据,SEMPARL项目将为该集团提供基本的工具或一个用户界面,允许浏览和搜索数据。

可能的项目任务:

  • 构建工具,允许议会辩论数据集本身来分析和描述:在议会的主要主题是什么解决,当事人和演讲者最多产的辩手呢?
  • 构建工具,允许提取选定的个人演讲和/或根据其主题或扬声器的信息完整的议程项目(住宅、教育/职业,聚会,性别,年龄)。
  • 发展的统计分析方法,提取的文本分类有关地理方面或其他语义信息。情绪。
  • 使用工具来跟踪选定的政策问题的出现和文本细读的政治过程
  • 分析不同或相似的扬声器或各方讨论政策问题,指的是地理名称
  • 搜索提到历史的议员数字化报纸和分类和细读这些结果

集团领导:丹妮拉Ceccon,斯特凡诺Ceccon

条款和条件的就业管理在社会层面上,进一步对每个合同的影响。当独立工会和雇主(或雇主组织)这些条款和条件的就业和调节谈判双方之间的关系,该活动被称为“集体谈判”。这个谈判的书面文件生成的是一个集体谈判协议(CBA)。虽然非常重要,为工人和雇主,这些文档(cba)并不容易找到,其内容往往是未知的,甚至那些被他们。

自2012年以来,WageIndicator基金会(http://wageindicator.org)已经在全球范围内收集和编码cba WageIndicator集体协议数据库(http://wageindicator.org/cbadatabase)。目前数据库包含来自50多个国家的1600个集体协议和28语言编写的。文本已经手工注释根据250年劳工权益相关问题9个主题——社会保障和养老金、培训、劳动合同、疾病和残疾,健康和医疗援助,工作/家庭平衡安排,性别平等问题,工资,工作时间,相关条款(即。为每个问题,部分文本)已经手动选择。注释的一部分进行了下SSHOC项目(https://sshopencloud.eu/)和克莱林集团支持的研究基础设施(https://www.clarin.eu/)。

由此产生的数据集包含集体协议的全文和所有分配给每个问题的条款。

研究兴趣

这样一个数据集的独特性和丰富性给机会在很多层面上做研究,因为它揭示了不同的主题如何与工作条件在不同的国家和不同的语言表达。这家集团的任务是获得定性见解从数据,看看这个输出可能共享/是可见的更广泛的社会科学和人文学科组科学家通过研究基础设施提供的服务。

在这个小组中,学生(数字)人文背景和有兴趣的学生计算语言处理,如多语言文本分析,会发现一些令人兴奋的工作。这组研究想法可能包括:

  • 跨国和跨语言分析:找出是否以及如何解决不同话题的集体协议。分析可能还包含/受益于使用其他数据集,如世界银行集团的国家收入或联合国人权指数。
  • 局部调查:对于一个感兴趣的话题,如性骚扰或同工同酬、研究特定功能所使用的词汇和词汇,即什么是最常见的词和词的关系,条款是多久。可以为一个语言/国家或者更多,和越野跨语言比较紧随其后。
  • Automatisation注释的过程:对学生计算技能,任务可以加快新文本的注释过程(例如通过创建机器学习模型),可以帮助理解,描述和识别的部分文本,一个问题的答案可以在文档中找到。学生将能够创建自己的算法和模型,但也将提供工作模型已经开发的SSHOC项目活动。将提供专家咨询和反馈SSHOC集团整个马拉松”。

这些工作将有助于研究集体协议条款,最终帮助工人,工会和雇主全世界更了解他们的劳动权利在部门或公司的水平。

可能的任务来体现在集团工作

  • 分析和理解数据之间的比较,探索可用的原料和注释版本的数据集
  • 识别感兴趣的话题和相关变量在多个国家和语言
  • 确定详细探讨什么以及如何(例如使用数据模型或算法)从数据中获得的见解
  • 使用自然语言处理技术的数据分析做准备
  • 开发数据管道在Python中使用sklearn或其他库执行文本分析,如关键字提取,段落分类,主题造型
  • 扩展和使用交叉验证测试模型,深度学习、神经网络等技术
  • 应用和比较数据跨多个语言见解/国家
  • 制定的解释结果,给他们,看看这些可以共享和使用的SSH科学家更广泛的群体。

集团领导:Ajda Pretnar,梅Klemen,鲁本Ros

集团将专注于议会辩论之前和期间的比较Covid欧洲从语言学,社会学,politological和/或计算角度。集团的目标是学习如何使用类似议会全集吗从不同的欧洲国家与元数据注释,如演讲者和会话信息和语言注释morphosyntactic和命名实体标记等研究Covid-19大流行造成的社会问题。该集团还将学习如何使用橙色(https://orangedatamining.com),一个数据挖掘和机器学习的可视化编程工具,这意味着编码技能不需要探索数据集。计算机科学家将能够使用他们的技能来创建高级定制小部件进行数据处理和分析。

国家议会的数据是一个验证通信通道民选政治代表和社会成员之间在任何民主。议会数据最重要的特征之一是其直接对应于并发事件,包括全球对人类健康的影响,社会生活和经济,如当前COVID-19大流行。通过对比数据分析,且在跨语言环境下,我们可以获得重要的见解跨国特征以及跟踪泛欧讨论在危机时期。

提供的议会全集将CLARIN埃里克ParlaMint项目(目前在保加利亚、克罗地亚、波兰和斯洛文尼亚)支持和SSHOC项目(https://sshopencloud.eu/)。它的目标是要编译一组可比语料库从全欧洲国家议会的辩论在一个统一的格式,覆盖的数据段Covid-19流行以及老,参考数据。的第一个版本全集已经加工过的语言和丰富的元数据,使搜索通过流行的在线查询以及语词检索可下载CLARIN库的独立处理。马拉松”的时候,一个新版本与许多新语言可用(英语,荷兰语,冰岛语、立陶宛语、捷克、意大利、土耳其语、丹麦语、匈牙利语、法语、拉脱维亚、罗马尼亚、荷兰和比利时/法国)。

可能的主题和任务组:

  • 情感在议会话语Covid之前和期间
    • 国家的尺寸
    • 政党的维度(执政党与反对党,左翼和右翼的建立与新政党)
    • 维度的性别(女性国会议员,男性议员)
    • 主题的维度(经济、健康、环境、社会事务等)。
  • 词法动力学在议会话语Covid之前和期间
    • 表达式的生命周期(出现上升,下降,消失)
    • 的词法足迹选定的团体或个人
    • 意识形态和民粹主义的语言在议会
    • 议会话语的亵渎
  • 跨国的观点在议会辩论之前和期间Covid(分析提到的外国地点,组织和个人)
    • 中心的权威/参考点的识别
    • 支持和反欧洲立场的识别