paint-brush
Dump de données d'actualités sur les entreprises technologiques sur HuggingFace : 7 millions d'articles les plus cités sur les 3 000 entreprises technologiques les plus appréciéespar@david

Dump de données d'actualités sur les entreprises technologiques sur HuggingFace : 7 millions d'articles les plus cités sur les 3 000 entreprises technologiques les plus appréciées

par David Smooke2m2024/02/08
Read on Terminal Reader

Trop long; Pour lire

HackerNoon a organisé et open source les plus de 7 millions d'articles d'actualité et de blogs sur les entreprises technologiques les plus cités sur Internet sur les 3 000 entreprises technologiques les plus valorisées.
featured image - Dump de données d'actualités sur les entreprises technologiques sur HuggingFace : 7 millions d'articles les plus cités sur les 3 000 entreprises technologiques les plus appréciées
David Smooke HackerNoon profile picture
0-item
1-item


HackerMidi a organisé les plus de 7 millions d'articles d'actualité et de blogs sur les entreprises technologiques les plus cités sur Internet sur les 3 000 entreprises technologiques les plus valorisées en 2022 et 2023. Ces histoires ont été organisées pour alimenter HackerNoon.com/Entreprises , où nous mettons à jour quotidiennement l'actualité des principales entreprises technologiques comme Microsoft , Google , et ÉtreindreVisage . Cet ensemble de données est open source sous la licence MIT sur HuggingFace en tant que Tech Company News Data Dump . Veuillez utiliser librement ces données d'actualités sur les entreprises technologiques pour votre projet :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Comment les entreprises technologiques ont été organisées

Notre équipe a dressé une liste des entreprises technologiques les plus précieuses et a ajouté des entreprises au fur et à mesure qu'elles commençaient à apparaître dans l'actualité et sur HackerNoon. Les mille et demi premiers étaient des sociétés ouvertes basées sur la capitalisation boursière. Ensuite, à mesure que les entreprises ont été mentionnées dans les articles de HackerNoon et ont obtenu de bons résultats lors du vote de notre startup de l'année , nous avons ajouté des pages d'actualités sur les entreprises technologiques pour elles. Une fois qu'une page d'actualités d'une entreprise technologique est créée, notre système organise et stocke les actualités tendances, les articles et les billets de blog sur cette entreprise en fonction de nos règles et invites qui définissent ce qu'est une histoire tendance.

Comment proviennent les histoires, les articles et les billets de blog

Une combinaison de règles personnalisées, d'invites et de conditions de pertinence, de spécificité et de tendance à l'aide de l'API Bing News, de l'API Brave News et de l'API HackerNoon. Nous avons analysé la correspondance sectorielle pour chaque entreprise et avons fortement favorisé les sites de haut rang les plus fiables, tout en autorisant également les éditeurs de niche pertinents de rang inférieur. Pour chaque entreprise, nous présentons les 10 à 20 histoires les plus pertinentes sur leur page principale/entreprise ( Microsoft par exemple ), puis présentons la liste complète des actualités, histoires, mentions, articles et liens notables de l'entreprise dans l'histoire Internet de l'entreprise. -name/news ( Google comme exemple ).

Comment ces données d'actualités sur les entreprises technologiques sont organisées

Les colonnes sont companyName, URL de l'entreprise, publiéAT, URL (histoire), titre, image sélectionnée et (méta) description. Cela suit la façon dont nous organisons les données dans notre base de données. Chaque article est lié à au moins une entreprise. Certaines entreprises ont plus d'articles que d'autres en fonction de leur part de voix, par exemple en utilisant la visionneuse d'ensembles de données, vous pouvez voir que Google a 99 152 résultats , 3M a 20 608 résultats , Adobe a 13 449 résultats et NVIDIA a 19 811 résultats .


Sans même télécharger les données, vous pouvez rechercher des noms d'entreprise ou de publication dans la visionneuse de jeux de données, comme NVIDIA illustré ci-dessous :



Cet ensemble de données est open source sous la licence MIT sur HuggingFace en tant que Tech Company News Data Dump . Veuillez utiliser librement ces données d'actualités d'entreprises technologiques pour votre projet :-) Vous pouvez quantifier la part globale de voix en ligne d'une entreprise, vous pouvez mesurer l'analyse des sentiments de la couverture de l'actualité numérique d'une entreprise, vous pouvez entraîner votre modèle pour prédire quels titres seront publiés sur quoi. entreprises à l’avenir, ou toute autre recherche sur les grandes entreprises technologiques et la couverture médiatique que vous désirez.

Découvrez ces données ouvertes ici :