解决方案:采集百度搜寻结果,图片不显示的解决方法

优采云 发布时间: 2022-11-24 23:36

  解决方案:采集百度搜寻结果,图片不显示的解决方法

  1.根据关键词采集

百度搜索结果

  根据关键词采集

百度搜索结果,可以使用curl来实现,代码如下:

  

123456789101112131415161718192021222324252627

  导出后发现有些图片无法显示

  2、采集的图片不显示原因分析

  直接百度搜索,页面可以显示图片。使用firebug查看图片路径,发现采集到的图片域名与百度搜索的图片域名不同。

  抓取返回图片的域名

  

  正常搜索图片域名

  查看采集到的和正常搜索的html,发现有个域名转换js不一样

  采集

  var list = {        "graph.baidu.com": "http://graph.baidu.com",        "t1.baidu.com":"http://t1.baidu.com",        "t2.baidu.com":"http://t2.baidu.com",        "t3.baidu.com":"http://t3.baidu.com",        "t10.baidu.com":"http://t10.baidu.com",        "t11.baidu.com":"http://t11.baidu.com",        "t12.baidu.com":"http://t12.baidu.com",        "i7.baidu.com":"http://i7.baidu.com",        "i8.baidu.com":"http://i8.baidu.com",        "i9.baidu.com":"http://i9.baidu.com",};

123456789101112

  正常搜索

  var list = {        "graph.baidu.com": "https://sp0.baidu.com/-aYHfD0a2gU2pMbgoY3K",        "t1.baidu.com":"https://ss0.baidu.com/6ON1bjeh1BF3odCf",        "t2.baidu.com":"https://ss1.baidu.com/6OZ1bjeh1BF3odCf",        "t3.baidu.com":"https://ss2.baidu.com/6OV1bjeh1BF3odCf",        "t10.baidu.com":"https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq",        "t11.baidu.com":"https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq",        "t12.baidu.com":"https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq",        "i7.baidu.com":"https://ss0.baidu.com/73F1bjeh1BF3odCf",        "i8.baidu.com":"https://ss0.baidu.com/73x1bjeh1BF3odCf",        "i9.baidu.com":"https://ss0.baidu.com/73t1bjeh1BF3odCf",};

<p>

" />

123456789101112</p>

  因此可以得出结论,百度根据源地址、IP、header等参数采集,会返回不同的js。

  3.采集

后图片不显示的解决方法

  将采集的html按照定义的域名进行批量转换即可。

  

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788

  添加域名转换后,所有图片都可以正常显示。

  分享一下老师大神的人工智能教程。零基础!容易理解!风趣幽默!还有*敏*感*词*笑话!希望你也加入我们的人工智能团队!

  文章采集调用 即将发布:华为首个AI手语直播诞生记

  2021年10月22日华为开发者大会直播期间,直播画面左下角始终有一位红衣少女,兢兢业业地为整场大会做实时手语翻译。红衣少女是HMS Core团队的手语数字人。基于团队新开发的手语服务,她可以完成实时手语翻译,生成包括身体姿势、手部动作和面部表情在内的手语。有了她,听障手语用户也能“听”懂HDC大会,获取更多有趣信息。这是华为首次在直播中使用AI手语,引起了线上线下观众和媒体的关注。

  一个美好的愿望

  手语项目起源于2018年推出的一款应用StorySign,这是一款将欧美流行童书转化为手语*敏*感*词*,帮助听障儿童学习阅读的应用。StorySign的推出,为众多听障儿童打开了一扇接触世界的窗口,也为他们的家庭带来了温暖。经过一段时间的发布,StorySign已经陆续上架了71本童书,支持英语、法语、德语等15种语言的手语。手语需要足够的手语*敏*感*词*作为手语学习的资源。但是如何更快的生成丰富的手语*敏*感*词*呢?

  StorySign集成了HMS Core的OCR(光学字符识别)技术,这是一种基于深度学习的AI技术,可以将图片上的文字智能识别为文字。那么,既然AI可以智能识别图片上的文字,那AI能不能做手语翻译呢?给AI一段话,如果能自动翻译成手语*敏*感*词*,人人都可以和AI一起学习手语,甚至AI还能成为聋人和健听人之间的实时翻译,让AI不仅造福孩子阅读场景,也更广泛的听障群体!

  通过HMS Core能力打通AI手语翻译,开发者可以集成,进而服务全球4.6亿听障人群。首先要面对的问题是——AI能不能做手语翻译,把文字智能生成手语*敏*感*词*?HMS Core组建了涵盖AI手语翻译所需的3D数字人体建模、自然语言理解、计算机视觉、3D*敏*感*词*、图形渲染、移动Android开发、云端服务等关键技术专家团队,并邀请国内权威专家手语语言学教授作为项目顾问,共同致力于智能实时手语翻译项目。

  算法和数据的双重挑战

  

" />

  手语翻译项目启动后,团队通过查阅大量文献和专利,迅速对行业相关技术进行研究,共同梳理出几大难题。首先,要考虑到手语动作的高精度要求,指尖位置1厘米的误差,就可能表示出完全不同的意思。其次,*敏*感*词*高质量的汉语手语双语手语语料库极难获得,短时间内不可能找到这么多专业的手语教师提供语料库。第三,作为一种独立的语言,手语有自己的语法和语序,中文和手语在语法和词序上存在差异。例如中文“我没有*敏*感*词*”,对应的手语序列是“*敏*感*词*/我/带了/没有”。最后,手语不仅包括手部动作,还包括肢体动作、面部表情和嘴部动作。多模态数据的协同生成非常重要。

  通过对这些问题的逐一分析和解决方案的探讨,手语团队输出了一个基于文本的多模态数字人动作表情生成方案。该解决方案由手语转录模块和手语动作及表情生成模块组成。它融合了手语语言学的知识,可以有效解决高质量动作捕捉数据较少的问题。

  算法方案确定后,手语团队面临更大的挑战——数据。在人工智能领域,有“兵马未动,粮草先行”之说。对于手语翻译项目来说,“粮草”就是获取手语数据的问题,包括手语转录数据和3D动作数据。如何制定合理的转录方案?什么样的动作捕捉设备可以采集数据满足手语项目的商业需求?

  转录是一项需要语言学和计算机科学紧密结合的工作。为此,技术专家与手语顾问紧密合作,潜心于手语语言学的学习,经过大量讨论,制定了适合该项目的手语转录标准。语言是语言驱动的东西,而计算机讲究规则。为了将手语语言学知识总结成计算机可以表达的规则,团队中的人工智能专家和手语顾问对转录规则进行了多次讨论,反复修改优化了20多个版本,最终完成了一个合适的项目 根据需要定制转录计划。

  在动作捕捉数据方面,手语团队通过多次调研和对动作捕捉设备的实地考察,发现动作捕捉数据的采集远比想象的复杂。在动捕采集过程中,引入错误的原因可能有很多,比如动捕套装不够贴身,动捕人员的体型比例与手语比例不一致等数字人等,导致无法直接使用动作捕捉的原创

数据。因此,手语团队立即成立了动作还原团队,加快动作捕捉数据的采集

,让项目稳步推进。

  手语数字转换器的故事和开发者大会

  随着数据采集的推进和AI算法模型的迭代优化,手语服务的工程化也在顺利进行。手语翻译团队仅用一周时间编写了手机SDK开发代码,并顺利完成了端云联调。同时,手语翻译团队在尝试了多种不同方案后,直接通过旋转角度驱动骨骼,避免驱动后数字人的动作出现细微差异,导致动作差异很大。手语意义,让手语数字人准确完成手语

  万事俱备,手语服务准备开启第一版,在HDC交出了一份满意的答卷。手语团队决定让手语数字人全程支持开发者大会现场演讲。这个挑战可想而知。华为开发者大会现场直播,观看人数非常多。如果能有一个手语数字人出现在这个舞台上,在直播的时候为听障朋友提供手语翻译,那么所有看直播的人都会注意到这个会手语的红衣女孩。这无疑会吸引更多人关注听障人士,

  

" />

  手语服务从文本生成手语。直播过程中算法的输出很大程度上依赖于语音识别的结果。如何保证语音识别的准确性?HDC会议演讲中收录

大量中英文混杂的专业术语。手语数字转换器如何输入这些词?把整套驱动和渲染方案搬到自研引擎上是否兼容?面对这些棘手的问题,手语团队组建了HDC大会直播的研究小组。部分成员正在研究算法,优化手语生成算法模型,以覆盖HDC会议可能出现的技术语料库;文字转手语算法部署和3D模型驱动问题,确保手语数字人在直播过程中能够成功识别麦克风中的声音和手语。在不到一个月的时间里,已经做好了充分的准备。

  在HDC2021如期举行的那天。手语队的小伙*敏*感*词*刃有余,让人叹为观止!这一刻,团队里的每一个人都有同感:不懈的努力没有白费,手语数字人终于在HDC的大舞台上被大家看到了!

  这是国内首个由数字化身主持的会议实时现场手语翻译。得益于华为自研的AI算法和渲染技术,无需真人参与即可实现会议现场实时手语翻译。这种基于语音识别、手语生成、驾驶员渲染的云端手语翻译解决方案已经通过HDC2021验证。不仅准确呈现手语动作,还解决了手语翻译中的一个普遍技术难点——表达系统。表情符号的出现,使手语数字化仪能够更完整、更准确地表达手语的意思。目前,手语服务支持输出10种不同类型的表情。

  技术转移温度

  全球有4.6亿听障人士,目前的中国手语一代远远不足以覆盖这些人。未来,HMS Core手语团队将继续优化手语翻译和手语数字人渲染。同时,还将建设英语手语生成能力,将手语服务全球化,服务更多听障人士。

  相信在不久的将来,手语数字化仪可以在更多的场合与大家见面。她可以出现在电视新闻节目的手语翻译小窗口,为你翻译新闻;她用手语向有听力障碍的朋友广播安全说明;甚至,在一些特殊教育学校,她还可以当手语老师,教听障学生学习手语……怀揣着这个美好愿望,HMS Core团队正在打造基于手语的StorySign2.0 APP服务能力,希望能为听障人士带来更多温暖。

  正如HDC大会上的一句话:天上的星光谁也无法熄灭,每一个开发者都是华为想要汇聚的星火。目前,手语数字人已经通过HMS Core手语服务全面开放给开发者,让更多的应用开发者可以通过调用我们的手语服务SDK快速实现手语实时翻译,打造各类手语APP对于听障人士。提供更加多元化的服务。手语服务团队希望与开发者共同打造华为移动服务的星空,创造无障碍交流的世界。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线