Abstract
背景
驾驶员的行为影响交通安全、燃料 / 能源消耗和气体排放。司机行为分析试图理解和积极影响司机的行为。通常驾驶员分析人物包括驾驶数据的自动收集和能生成一个分类来描绘出驾驶员攻击性的属性的计算机模型应用。不同的传感器和方法被应用在任务中,然而低成本解决方案和高性能仍然是研究的目标。
本文
本文对不同的 Android 智能手机传感器和分类算法进行了研究,以评估哪一种传感器 / 方法的组装能够使分类具有更高的性能。结果表明,特定的传感器组合和智能方法可以提高分类性能。
Introduction
驾驶员监控和分析 (Drivermonitoring andanalysis) 或驾驶员行为分析 (driverbehaviorprofiling) 是自动收集驾驶数据 (如速度、加速、刹车、转向、位置) 并应用计算模型来为驾驶员生成安全评分的过程。
驾驶数据收集可以通过多种类型的传感器来实现,从智能手机中的通用设备,到监控摄像头、远程信息盒和车载诊断适配器等专用设备。
本文的贡献
本文的主要贡献是在现实世界的实验背景下,评估机器学习算法和 Android 智能手机传感器的多种组合在检测攻击性驾驶事件的任务中的性能。本文执行数据收集阶段,驾驶一辆车,并从几个不同的传感器收集数据,同时执行不同的调动。本文将介绍机器学习方法如何在任务中使用,并评估传感器和技术组合的准确性,旨在找到传感器 / 技术与每一类行为的最佳匹配。
Related work
Nericell 由 Mohan 等人 [17] 提出,是一款 Windows Mobile 智能手机应用程序,用于监测道路和交通状况。它使用智能手机的加速计来检测路面坑洼和刹车事件。它还使用麦克风来检测喇叭声,以及 GPS / 全球移动通信系统 (GSM) 来获得车辆的定位和速度。通过比较一组经验预先设定的阈值与加速度计数据的突然变化或与 N 秒滑动窗口内的平均值来检测刹车、颠簸和坑洞。没有使用 MLA 来探测这类事件。一些事件检测结果的 False Positives (FPs) 和 Fale Negatives (FNs) 包括:4.4% 的 FN, 22.2% 的 FP 的刹车事件;低速 (<25 公里 / 小时) 检测颠簸 / 坑槽,FN 为 23%,FP 为 5%;FN 和 FP 用于检测暴露车辆 (如摩托车) 的喇叭声。
Dai and colleagues[9] 提出了一种 Android 应用程序,旨在实时检测和警报危险驾驶事件,通常与酒后驾驶有关。该应用程序使用智能手机的加速计和方向 (偏航、俯仰和滚转角) 传感器来检测异常的曲线运动 (ACM) 和保持速度的问题 (PMS),这是醉酒驾驶相关行为的两大类。用一系列方程来确定横向和纵向加速度矢量。如果在 5 秒时间窗内横向加速度的最大值和最小值之间的差异超过经验阈值,则 ACM 事件被检测。在任何给定时间,如果纵向加速度超过正或负的固定经验值,则检测 PMS。与 [17] 类似,不使用 MLA 进行事件检测。实验结果:异常曲线运动 FN 为 0%,FP 为 0.49%; 速度控制问题的 FN 为 0%,FP 为 2.90%。
Johnson 和 Trivedi [10] 创建了一个名为 MIROAD 的 iPhone 应用程序。MIROAD 使用基于智能手机的磁强计、加速计、陀螺仪和 GPS 传感器融合来检测主动驾驶事件,并据此将驾驶员的驾驶风格分为主动驾驶和非主动驾驶。基于 DTW 算法,采用单一分类器检测攻击事件。所有的处理都在智能手机上实时执行。实验分析表明,97% 的攻击事件被正确检测到。
WreckWatch 由 White 等人 [18] 提出,是一款基于 Android 智能手机的客户端 / 服务器应用程序,用于检测车祸。客户端应用程序检测事故,记录相关数据,并将其发送给服务器应用程序,服务器应用程序可以通知相关部门。失事监视客户端使用来自加速度计、GPS 和麦克风的数据,并使用基于阈值的过滤来检测事故。事故预测框架由电话状态的 11 元组模型和评估模型是否表示事故的函数组成。模型变量包括在任何方向上经历的最大加速度,以及是否有响亮的声音发生的指示。一个触发事故检测的场景是当加速度、声音和车辆速度都高于经验阈值。与 [9,17] 相似,事故检测不采用 MLA。实验结果表明,手机掉落不太可能导致 FPs,智能手机可能检测不到一些事故,声学数据不足以检测出事故。
Araujo and colleagues[15] 展示了一款智能手机应用程序,可以将油耗效率作为驾驶员行为的一个功能来评估。该应用程序还提供了实时驾驶提示,如 shift gear earlier 和 accelerating too high。该应用程序使用 OBD 蓝牙适配器和 Torque Pro 智能手机应用程序从车辆传感器收集数据 (例如,速度、加速度、转速),而不是从智能手机传感器收集数据。数据采集完成后,app 提取一系列特征,并对其应用三个分类器 (一个线性判别器和两个模糊系统)。所有的处理都在智能手机上实时执行。
Eren 等人 [11] 提出了一种 iPhone 应用程序,可以根据危险驾驶事件将驾驶员行为分类为安全或危险。该应用程序可以检测突然转弯、车道偏离、刹车和加速事件。用于事件检测的传感器有智能手机的加速度计、陀螺仪和磁强计。应用程序使用端点检测算法来划分事件的开始和结束时间。通过 DTW 算法将标定后的事件与模板事件数据进行比较。最后,贝叶斯分类器根据一段时间内发生的事件数量,将驾驶员的行为标记为安全或危险。实验结果表明,15 个驾驶员中有 14 个 (93.3%) 被正确分类。值得注意的是,本文仅提供了驱动分类结果。因此,不提供事件分类性能结果。
Fazeen 和同事 [19] 使用 Android 智能手机加速计和 GPS 来识别车辆状况 (速度和换位)、驾驶模式 (加速 / 减速和变道) 和道路状况 (光滑、不平整、粗糙、有颠簸或坑洼)。检测事件的主要方法是计算连续加速度计读数在某些轴上的持续时间、差异和斜率,并将它们与经验的固定 / 动态阈值进行比较。例如,工作状态,安全加减速在 y 轴上的重力不超过 0.3g。与 [9,17,18] 类似,不使用 MLA 进行事件检测。实验结果表明,路面异常分类准确率为:凹凸路面异常分类准确率为 81.5%,坑洼路面异常分类准确率为 72.2%,高低路面异常分类准确率为 75%,平坦路面异常分类准确率为 91.5%,高低路面异常分类准确率为 89.4%。
Castignani 等人 [12] 提出了一个基于模糊逻辑的驾驶员行为分析移动工具,该工具利用了 Android 智能手机中的加速度计、磁强计和重力传感器。这个工具将驾驶员的行为分为 Normal, Moderate, 和 Aggressive,对应的驾驶分数在 0 (最好) 和 100 (最差) 之间。由于传感器数据是在 byUBI-Meter 移动应用程序中采集并存储在本地智能手机上,因此分类和评分不进行实时处理。随后,这些数据被发送到 Internet 上的远程服务器进行处理。Saiprasert 和他的合作者 [13] 使用了 GPS、加速度计和智能手机磁强计传感器来描述司机的行为:Very Safe,Safe,Aggressive, 和 Very Aggressive。该剖面是通过检测相关驾驶事件实时计算的。事件检测是由 DTW 算法 [20] 的变化来执行的。
SenseFleet 由 Castignani 等人 [14] 提出,是一个针对 Android 智能手机的驾驶员行为分析平台,能够独立于移动设备和车辆检测危险驾驶事件。该手机应用程序从加速度计、磁强计、重力传感器和 GPS 智能手机传感器收集数据,并利用模糊系统检测旅途中可能发生的危险事件,如超速、转弯、加速和刹车。应用程序计算每次行车的驾驶分数在 0 (最差) 到 100 (最好) 之间,作为检测到的危险事件的函数。所有的处理都是在智能手机上实时完成的。作者做了几个实验。在其中一个实验中,应用程序正确识别了 90% 以上的风险事件。
Wahlstrom, Skog 和 Handel [21] 提出了一个基于轮胎滑移 (滑移) 和车辆翻车的理论可能性的检测危险车辆转弯事件的框架。全球导航卫星系统 (GNSS) 是 Android 智能手机 GPS 的总称,是唯一用于事件检测的传感器。利用经典力学方程,定义了滑移和翻车的理论阈值。滑动阈值根据切向和旋转速度、切向加速度以及车辆轮胎与道路之间的摩擦系数来定义。车辆翻车阈值是根据车辆的重心、轨道宽度和高度定义的。与 [9,17 19] 类似,事件检测中没有使用 MLA。从三款不同的 Android 智能手机收集的 GNSS 数据的实验分析显示,FP 和 FN 的平均比率为 13% 是最佳结果。
本文根据研究发现了一些值得注意的地方
- 除了 [21] 之外,所有的论文都使用 传感器融合数据作为事件检测算法的输入
- 采用的 MLAs 可归结为 模糊逻辑 [12,14,15] 或 DTW 的变体 [10,11,13]
- 最近的论文使用 智能手机传感器,而不是车辆或远程信息箱传感器
- 一些论文 [9,17-19,21] 没有使用 MLAs 来检测驱动事件,而是使用 物理方程或固定 / 动态阈值或两者的结合来达到这一目的。
本文是在本地运行机器学习算法,但是作者表示未来的版本可能会运行在基于云的方式上,如 [22,23] 所示。其他与驾驶员行为相关的方法也与社会机制有关,如 Song 和 Smith [24] 所做的评价,即在高占有率的收费车道上研究驾驶员行为。在 Sun 和同事 [25] 的工作中,我们可以看到一个关于智能和互联社区的更全面的方法。关于基于智能手机的汽车传感系统的更全面的比较,请参考 Engelbrecht 和他的同事 [26] 的研究。
Machine learning algorithms
本文比较了四种 MLA 的性能:人工神经网络 (ANN)、支持向量机 (SVM)、随机森林 (RF) 和贝叶斯网络 (BN)。之所以选择这些 MLAs 是因为它们在分类问题的文献中大量出现,而且它们代表了不同的机器学习 “tribes”,保证了机器学习算法的多样性。本节主要解释上述 MLAs 的基本概念。
- Artificial neural networks(ANN)
- Support vector machines(SVM)
- Random forrest(RF)
- Bayesian networks(BN)
Methodology
将工作建模为一个 多标签监督学习分类问题,其中标签是 驾驶事件类型 (driving events types)。
本文工作的目标是识别运动传感器 (及其轴)、学习算法 (及其参数) 和滑动窗口 (nf) 中的帧数的最佳组合,以检测单个驾驶事件类型。
在表单中定义了一个计算程序集
通过训练、测试和评估由指定的 MLA (element #3) 及其配置参数 (element #4) 生成的分类器的性能,对传感器 (element #1)、它的轴 (es)(element #2) 和滑动窗口中的帧数 (element #5) 进行识别。通过更改该程序集中元素的值,本文实现了不同的驾驶员事件检测性能。因此,该评估将对元素值的几个组合进行评估,以揭示对每种驾驶事件类型表现最好的组合。
过程
图 1 显示了评估管道的高级视图。
第一步
对智能手机传感器原始数据进行采样,并将其从 设备坐标系转换为地球坐标系 (图 2)。为了实现车辆内部的设备位置独立,这种平移是必要的。转换后的传感器数据存储在智能手机文件系统中。
第二步
从智能手机中检索转换后的传感器数据文件,并将其作为输入来生成属性向量数据集。
第三步
利用属性向量数据集对 MLAs 的性能进行训练、测试和评估。
如图 1 所示,第一个管道步骤在智能手机上执行,而第二个和最后一个步骤在普通计算机上执行。
评估性能
本文用来评估每种驾驶事件类型组合性能的度量是 ROC 曲线 (AUC) 下的面积 [33,34]。分类器的 AUC 范围为 0.0 (最差) 到 1.0 (最好),但现实分类器的 AUC 不应该小于 0.5,这相当于随机猜测。因此,计算程序集 AUC 越接近 1.0,它在检测特定驾驶事件类型方面就越好。
Evaluation assembly
sensor
传感器 (sensor) 是评估组装的第一个元素,它代表了以下 Android 智能手机运动传感器之一: 加速度计 (Acc),线性加速度 (LinAcc),磁强计 (Mag) 和陀螺仪 (Gyr)。
- 加速度计测量施加在设备上的加速度,单位是米每秒的平方 (m/s2),包括重力。
- 线性加速度传感器类似于加速度计,但不包括重力。
- 磁强计测量应用于设备的微特斯拉 (μT) 磁场的力,其工作原理类似于磁铁。
- 陀螺仪以每秒弧度 (rad/s) 来测量设备轴的旋转速率。
这些传感器提供了一个在标准传感器坐标系中具有纳秒精度的三维 (x,yez) 时间序列 (相对于设备)
sensor axis(es)
传感器轴 (sensor axis (es)) 是评估组装的第二个元素
该元素的可用值为
- all 3 axes
- x axis alone
- y axis alone
- z axis alone
比如:加速度计产生了以下数据集
其中唯一的例外是 磁强计 ,x 轴的值在转换到地球的坐标系统后总是 0 或接近。因此没有 omagnetometer_x 数据集。
本文评估数据来自产生 4 个数据集的 3 个传感器,和产生 3 个数据集的 1 个传感器,总共有 3*4+3=15 个数据集。本文在不同的数据集中分离传感器轴,以观察是否有任何一个轴可以作为检测特定驾驶员事件类型的最佳轴。
MLA
MLA 是评估组装的第三个元素
评估了 MLP、SVM、RF 和 BN MLAs 的分类性能。本文将这些算法的 WEKA (版本 3.8.0) 实现与 LIBSVM [35] 库 (版本 3.17) 结合使用。本文使用 10 倍交叉验证来训练和测试这些分类器,以最小化过拟合。
Algorithm configuration
算法配置 (Algorithm configuration) 是评估组装的第四个元素
本文执行了参数网格搜索,以评估表 1 中参数值的每一种可能组合。本文对大多数参数值进行实验设置,并遵循 [36] 中支持向量机的指导原则。对于表 1 中没有列出的参数,本文使用了 WEKA 默认值。
sliding window
原始传感器数据基本上由三轴值和一个纳秒时间戳组成,表示采样的瞬间 / 时间。但是,我们不向分类器发送原始传感器数据。取而代之的是,我们将传感器的时间序列样本以一秒的帧进行分组,组成一个滑动时间窗口,然后总结出一个属性向量。随着时间的推移,窗口在时间序列上以 1 帧的增量滑动,如图 3 所示。我们认为
这些值是通过实验定义的,因此滑动窗口可以容纳收集的驾驶事件的长度,根据事件的 aggressive,收集的时间范围为 2 到 7 秒。
本文评估了几个评估程序集的性能,以找出最适合检测每种驾驶事件类型的程序集。装配数是 15 个数据集、5 个不同的 nf 值、4 个 BN 算法配置 (表 1)、5 个 MLP 配置、6 个 RF 配置和 36 个 SVM 配置的所有组合的结果。
这个结果总共
Attribute vector
属性向量是滑动窗口的汇总。每个包含驾驶员事件的时间窗口都会生成属性向量的一个实例。相应地,如果在特定时间窗口中没有驾驶员事件,则不会生成属性向量实例。
本文通过计算构成时间窗口的帧内传感器数据样本上的均值 (M)、中值 (MD)、标准差 (SD) 和增加 / 减少趋势 (T) 来创建属性向量的实例。向量中属性的数量依赖于滑动窗口 (nf) 中的帧数量。有
图 4 描述了传感器数据的单个轴的属性向量的结构。当数据集由多个轴组成时,每个轴的属性向量被简单地连接起来,并且只保留最后一个向量的 class label 属性,因为它们都具有相同的值。
向量的属性计算如下:
其中
是应用于第 帧样本的一个汇总函数 是应用于样本从第 个帧到第 个帧的汇总函数 ( )
向量的 class label attribute 来自于 驾驶事件的 ground-truth
类标签 class label 是 driving event,它的开始时间戳在帧
单个驾驶事件原始传感器数据示例生成
Data collection in a real-world experiment
为了收集驾驶事件的传感器数据,本文进行了一个真实的实验。在这个实验中,一个 Android 应用程序在驾驶员执行特定驾驶事件时记录智能手机传感器数据。本文还记录了驾驶员事件的开始和结束时间戳,以生成实验的 ground-truth。
本文进行了 4 次汽车出行的实验,每次平均约 13 分钟。
实验条件如下:
- the vehicle was a 2011 Honda Civic (这辆车是 2011 年的本田思域 (Honda Civic))
- the smartphone was a Motorola XT1058 with Android version 5.1 (这款智能手机是摩托罗拉 XT1058, Android 版本为 5.1)
- the smartphone was fixed on the car’s windshield by means of a car mount, and was neither moved nor operated while collecting sensor data (智能手机通过汽车支架固定在汽车的挡风玻璃上,在收集传感器数据时既不移动也不操作)
- the motion sensors sampling rate varied between 50 and 100 Hz, depending on the sensor (运动传感器的采样率根据传感器的不同在 50 到 100 赫兹之间变化)
- two drivers with more than 15 years of driving experience executed the driving events (由两名具有 15 年以上驾驶经验的驾驶员执行驾驶事件)
- the weather was sunny and the roads were dry and paved with asphalt. (天气晴朗,道路干燥,铺着柏油)
本实验收集的驾驶事件类型以 [13] 中的事件为基础。
本文的目的是建立一组驾驶事件,这些事件代表了现实世界中常见的事件,如刹车、加速、转弯和变道。表 2 显示了本工作中使用的 7 种驾驶事件类型及其收集的样本数量。
图 5 显示了评估中使用的四个传感器捕获的攻击性左变道事件的传感器数据。
Results
本文使用 5 个不同的 nf 值,在之前描述的 15 个数据集上执行表 1 中描述的 4 个 MLAs 及其配置的所有组合。本文用 15 种不同的随机种子训练、测试和评估每个评估集合。最后,我们计算了这些执行的 AUC 平均值,并根据驾驶员事件类型对它们进行分组,并在图 6 所示的箱线图中对 5 个性能最好的组件进行排序。该图左边显示了驾驶事件,右边显示了每个事件的 5 个最佳评估程序集,最优的程序集在底部。
图 6 中的组合文本标识按此顺序进行编码:
- the nf value
- the sensor and its axis( if there is no axis indication, then all sensor axes are used)
- the MLA and its configuration identifier
结果结论
- MLAs 在 较高的 nf 值 (即较大的滑动窗口大小) 下表现更好。在 35 个性能最好的组件中,有 23 个 nf = 8, 有 6 个 nf = 7, 有 5 个 nf = 6,只有 1 个 nf = 4。
- 陀螺仪和加速度计是本实验中最适合检测驾驶事件的传感器。另一方面,磁强计单独不适合事件检测,因为没有 35 个最好的组件使用该传感器。此外,使用所有的传感器轴比使用单个轴在一般情况下性能更好。唯一的例外是陀螺仪的 z 轴,它最好的检测侵略性的左转弯。
- RF 是目前为止表现最好的 MLA, 35 个最好的组装中有 28 个。第二好的是 MLP,有 7 个最好的结果。RF 在非侵略性事件、侵略性转弯、断裂和加速中占据了前 5 名。然而,MLP 更擅长侵略性的变道。BN 和 SVM 在 35 个表现最好的 assemblies 中没有排名。
- MLP 配置 #1 的性能最好。在此配置中,隐含层神经元的数量被定义为 (#attr. + #classes)/ 2。这也是缺省的 WEKA 配置。对于 RF,配置 #6 (# of iterations = 200; # of attributes to randomly investigate= 15) 和 #5 (# of iterations = 200; # of attributes to randomly investigate = 10) 给出了最好的结果。
- 本文在排名前 35 位的评估程序集中发现了令人满意的和同等的性能。这是因为最坏的 AUC 平均值 (aggressive breaking event 为 0.980) 和最好的 AUC 平均值 ( aggressive right lane change event 为 0.999) 之间的差只有 0.018。这一差异在本实验背景下不显著。
Conclusions and future work
在这项工作中,本文使用从 4 个 Android 智能手机传感器 (加速度计、线性加速度、磁强计和陀螺仪) 收集的数据,对 4 个 MLAs (BN、MLP、RF 和 SVM) 在检测 7 种驾驶事件类型中不同配置的性能进行了定量评估。本文在一个有 2 名驾驶员的真实世界实验中收集了 69 个此类事件类型的样本。
记录这些事件的开始和结束时间作为实验的 ground-truth。本文还比较了应用不同滑动时间窗大小时的性能。
使用表单的 3865 个评估程序集的不同随机种子执行了 15 次执行
因此找到了每个驱动事件类型的前 5 个执行程序集。在实验中,这些结果表明
- 滑动窗口尺寸越大表现越好
- 陀螺仪和加速计是探测驾驶事件的最佳传感器
- 一般来说,使用所有传感器轴比使用单个传感器轴表现更好,除了侵略性的左转事件
- 到目前为止,RF 是表现最好的 MLA,其次是 MLP
- 前 35 种组合的性能均令人满意且相当,AUC 均值在 0.980 ~ 0.999 之间变化。
在未来的工作中,本文希望通过不同的车辆、Android 智能手机型号、道路状况、天气和温度来收集更多的驾驶事件样本。本文还希望在评估中增加更多的 MLAs,包括基于模糊逻辑和 DTW 的 MLAs。最后,本文打算使用本研究中观察到的最佳评估程序集来开发一个 Android 智能手机应用程序,该应用程序可以实时检测驾驶事件并计算驾驶员行为概况。