竞赛圈   > 微博热度预测竞赛|参赛tips

DC竞赛

  • 关注者 1
  • 关注了

DC竞赛

官方

DataCastle “卧龙大数据 微博热度预测竞赛”上线以来受到了很多参赛者的喜爱,上线不久,不断有参赛队伍提交了结果,排行榜也在不断刷新中。

在参赛的过程中,有的小伙伴反应在赛题和数据的理解上遇到了一些小问题,为了让大家更好地理解和参赛,小运营特意把大家反馈比较多的一些疑惑整理出来了,供大家参考。

下面我们以Q&A的形式一一列出来:


1.怎么参赛?什么时候可以提交?

答:在pkbigdata.com上注册(登录),选择你要参加的竞赛,点击“参加竞赛”,组队成功,就算成功参赛啦。竞赛处于ing的状态,都可以提交,现在就可以~


2.如何下载数据?

答:比赛下载原始数据,必须要点击“参加竞赛”,然后自己创建队伍或者加入其他童鞋的队伍才能下载。


3.这次的数据文件都是什么类型的文件?

答:文件都是普通文本文件。


4.传播规模是指什么?

传播规模是指源微博一共被转发了多少次。单人转发多次,则计多次。即一个人对一条微博转发n次,那这n次都是有效的。


5.关于传播深度如何理解?

传播深度指:以源微博的用户为起点,计算转发链上其他节点到源节点的距离,最长距离就是此微博的传播深度。

举个例子,假如源微博用户是a,用户b从a处转发了微博,用户c从b处转发了微博,用户d又从c处转发了微博,那么微博传播就是a->b->c->d,深度就为3。

但是需要注意两点!

第一点:一个用户可能从多个源都做转发,比如在之后的时间里,c从d处进行了转发,或者a又从c处做了转发,在这种情况下,深度并不增加;同样的,若源微博用户a再次转发了自己的微博,深度也不增加。

第二点:在数据采集过程中,由于各种原因(比如新浪自动截断、用户手动删除、采集遗漏等),转发链可能出现中断,继续采用上面的例子,假如用户e可能从a、b、c或d中做了转发,但是训练集中没有这一纪录,反倒是有用户f从e处转发了此微博,也就是说无法得知用户e的父亲节点,导致深度计算出现问题。为解决这一问题,我们在计算深度的时候,默认添加从a到e的转发关系,于是从a到e的距离就为1,到f的距离为2。

例如:

  1. 如果有一条微博的其中一条传播路径是a-b-c-d,另一条是a-b-f,后来f又从d处转发,又得到一条路径a-b-c-d-f,假设就只有这三条路径,那么传播深度应该是3。

  2. 如果先有a-b-c-d,下一时刻是a-b-c-d-f,下下时刻是a-b-f,那此时的深度是4。


6.一少部分微博内容里有重复很多网址,是干什么用?

答:这部分重复网址,是木有用处的,小伙伴们请忽略~

 

7.关于数据格式

WeiboProfile.train中微博id为纯数字;

WeiboProfile.test中微博id为”testWeibo111”的格式。

每一行数据的整体结构还是相同的,微博id\001微博作者id\001微博发布时刻\001微博内容。

 

8.关于评分算法

这次是越小越好,大家记住了哇。误差越小排名越高的。

 

9.关于示例提交文件的下载入口,你发现了么?

在提交页面上,有示例文件的文件名,点击就可以下载啦

示例提交文件干什么用?帮助大家了解提交csv的格式,在遇到提交问题时能及时解决。

 

另外,大家在参赛的时候注意仔细阅读,赛题、数据、提交规则的详细说明哦!如果在参赛过程中遇到什么问题,记得在企鹅群(423732457)里@DC小运营,我们会在第一时间为大家解答。


DataCastle “卧龙大数据 微博热度预测竞赛”正在火热进行中,“3万条微博,800万位用户,1784万次转发”数据,等待你的精准预测。


1条评论

分享

1条评论
意见反馈
关注微信公众号 关注微信公众号

扫一扫分享给周围朋友