商场商圈潜客挖掘模型

天翼云开发者社区
• 阅读 1

本文分享自天翼云开发者社区《商场商圈潜客挖掘模型》,作者:石泽涛 超速数据清洗算法: 1)针对同一用户,顺次选取两条记录(第n条、第n+1条),根据第n条记录的停留时间TSn(两停留点时间差),以及与第n+1条记录的距离Dn(两记录点经纬度距离),计算第n条记录的穿越速度(Dn/TSn),如果该速度大于350km/h,则第n条记录的坐标修改为第n-1条记录的坐标,否则不作修改; 2) 如果为首条记录不合格,则继续计算第2条记录的速度,第2条记录与第3条记录的距离D2,直到找到速度合格的记录,将其坐标赋予首条记录。 3)最后一条记录始终保留。 4)重复步骤2 5)删除重复记录 乒乓切换清洗算法: 1)针对同一用户(Mdn),顺次选取三条记录(第n-1条、第n条、第n+1条),如果第n-1条记录与第n+1条记录BSID相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组;例如:CABABABAD标黄的部分为一个乒乓重复组,红字表示乒乓记录,这个情况属于具有5条乒乓记录的重复组。 2)对于只有一条乒乓记录的重复组(CABAD),考虑两点间的距离和事件发生的时间。首先,计算第n条记录的穿越速度(Dn/TSn),当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度(6km/h),则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。 3)对于大于等于两条乒乓记录的重复组(CABABD、CABABAD、CABABABD),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断。比如CABABD替换为CAABBD、CABABAD替换为CAABAAD。 4)遍历结束后重复步骤2)。 5)重复2)3)4),直到所有记录均合格。 6)删除重复记录。 顾客识别算法: 1)判断目标区域的范围。 2)使用居住地工作地最近的地点与目标区域的距离。按下面条件进行筛选:(D为距离) D<1公里 停留时长>10min 1公里<D<2公里 停留时长>30min D>2公里 停留时长>45min 满足以上条件即为商场顾客 使用三组速度(进入前,里面,离开后)计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Codeforces 862B (二分图染色)
<题目链接(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fvjudge.net%2Fproblem%2FCodeForces862B)\题目大意:给出一个有n个点的二分图和n1条边,问现在最多可以添加多少条边使得这个图中不存在自环,重边,并且此图还是一个二
Wesley13 Wesley13
3年前
MySQL的隐式转换导致了一个线上BUG
点击上方Java后端编程 ,选择 置顶或者星标技术干货每日送达!某一天,开发问我,为什么针对一个查询会有两条记录,且其中一条记录并不符合条件selectfromtableawherexxno170325171202362928;xxno为 170325171202362928 和 1703251712023
Wesley13 Wesley13
3年前
Mysql 插入记录时检查记录是否已经存在,存在则更新,不存在则插入记录SQL
我们在开发数据库相关的逻辑过程中,经常检查表中是否已经存在这样的一条记录,如果存在则更新或者不做操作,如果没有存在记录,则需要插入一条新的记录。这样的逻辑固然可以通过两条sql语句完成。SELECTCOUNT()FROMxxxWHEREIDxxx;if(x0)INSERTI
Wesley13 Wesley13
3年前
67,盛最多水的容器
给定 _n_ 个非负整数 _a_1,_a_2,...,_a_n,每个数代表坐标中的一个点 (_i_, _ai_)。在坐标内画 _n_ 条垂直线,垂直线 _i_ 的两个端点分别为 (_i_, _ai_)和(_i_,0)。找出其中的两条线,使得它们与 _x_ 轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且 _n_ 的值至少为2。!
Wesley13 Wesley13
3年前
MySQL查询:查询一个表中类别字段中Max()最大值对应的记录
问题是:数据库有一个表code,里面有个点击量字段click\_num和一个类别字段kind以及其它信息字段,现在要搜出每个类别中点击量最大的那条记录,如果是10个类别,那么结果应该是10条记录,如果最大点击量有两个相同的只要一条。经过N次搜索,N次检测网上的解决SQL语句,终于找到个优雅的而且结果正确的SQL,这个是一个博客作者在Mysq
Stella981 Stella981
3年前
LeetCode.1029
这是小川的第383次更新,第412篇原创<br/01看题和准备今天介绍的是LeetCode算法题中Easy级别的第245题(顺位题号是1029)。公司计划采访的人数为2N。将第i个人飞往城市A的费用是i0,将第i个人飞到城市B的费用是费用i1。返回将
研发日常踩坑-Mysql分页数据重复 | 京东云技术团队
踩坑描述:写分页查询接口,orderby和limit混用的时候,出现了排序的混乱情况在进行第N页查询时,出现与第一前面页码的数据一样的记录。问题在MySQL中分页查询,我们经常会用limit,如:limit(0,20)表示查询第一页的20条数据,limit
贾蔷 贾蔷
3星期前
NOIP 2000 提高组 洛谷1004题(方格取数)解题思路与C++代码解析
一、题目描述简要描述题目:例如,在一个n×n的方格图中,每个格子包含一个正整数。需要选择两条从左上角到右下角的路径,路径可重复经过格子,但两条路径除起点和终点外不能相交。求两条路径数字和的最大值。二、解题思路与算法分析1.问题分析1.问题核心是求解两条不交
贾蔷 贾蔷
3小时前
牛客13279题解:利用递归与深度优先搜索计算树的最大高度(附完整代码)
一、题目解读牛客13279题要求计算给定树的最大高度。题目输入一棵以邻接表形式表示的树(节点从0开始编号),需要输出从根节点到最深叶节点的最长路径长度。树的结构由n个节点和n1条边构成,保证为连通无环图。理解题目核心在于准确获取树的拓扑关系,并设计算法遍历
构建多维打标签算法
本文分享自天翼云开发者社区《》,作者:石泽涛针对各类主题,通过对用户DPI访问数据深度解析,体现数据价值,丰富云产品形态与应用范围;建立行业的标签,能够对用户访问各类APP和网站的行为和内容有深入细致的刻画,为主题运营工作提供必要的数据支撑。在获客成本越来
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
859
粉丝
16
获赞
40