我的数据中所有单词的Tfidf都等于0.0
我正在尝试计算数据中单词的所有 tfidf 分数,但在打印分数时,大多数数据等于 0.0。正常吗?
import os, sys, re
import pandas as pd
import statistics
from sklearn.feature_extraction.text import TfidfVectorizer
import stanza
import spacy_stanza
import warnings
warnings.filterwarnings("ignore")
#stanza.download('fr')
spacynlp = spacy_stanza.load_pipeline('fr', processors='tokenize,mwt,pos,lemma')
def gettfidf_score(liste):
vectorizer_tfidf = TfidfVectorizer()
X = vectorizer_tfidf.fit_transform(liste)
#print(vectorizer_tfidf.get_feature_names())
print(X.toarray())
dico = dict(zip(vectorizer_tfidf.get_feature_names(), X.toarray()[0]))
print(dico)
liste_candidat = []
mean_score = []
for k, v in dico.items():
mean_score.append(v)
#print(mean_score)
print(statistics.mean(mean_score))
datas = ['dire que il ne falloir pas que on que on être euh que on être beaucoup beaucoup à le dessus quoi parce que il y avoir toujours il y avoir toujours le comparatif ce que il y avoir ce être que le réfrigérateur seul le réfrigérateur seul ce être à dire un seul appareil être trop petit par rapport à le marché réel de le cuisine ce être à dire là où il y avoir du potentiel de vente le litrage de un seul produit être trop faible il falloir à le moins deux produit donc le deux produit ensemble il falloir voilà il falloir que ça rester sur enfin il ne falloir pas que ça aller beaucoup plus haut quoi', 'sur le station de pompage ce être très intéressant car milieu polluer corrosif', 'qui être spécialiste ben le informaticien chez il il penser il penser que ce être ce être tellement pointu que ce être comme si un comptable il venir lui mettre de le de le information qui ne le concerner pas trop venir de gestion de maintenance ou un chose comme ça si ce n être pas bien faire et que ça venir lui perturber son comptabilité il ne aller pas être de accord longtemps hein il penser il le voir comme ça', 'non dire le degré de liberté de on savoir que déjà en coelioscopie ce être normal on pouvoir faire beaucoup mieux si il apporter le amplitude à le mouvement et le souplesse dans le manipulation ça ça être également un point très important ce être ce que permettre de ailleurs le da vinci donc il dire que par rapport si on pouvoir dire si on se comparer à le da vinci il apporter en plus un mise en place un mise en route un mise en œuvre beaucoup plus rapide on pouvoir le souhaiter pour le achat de le appareil non consommable qui être inférieur un consommable qui être équivalent ou pas plus cher en performance il apporter le de un apprentissage facile le facilité de le degré de liberté de le différent mouvement et puis il apporter en plus le miniaturisation le sensation tactile voilà'] # exemple : original file is too long
for elt in datas:
elt = cleaning(elt)
nlpdoc = spacynlp(str(elt))
#print(nlpdoc)
nlpdoc = [token.lemma_ for token in nlpdoc ]
list_sent.append(" ".join(nlpdoc))
print(list_sent)
gettfidf_score(list_sent)
我得到这个结果:
{'abandonner': 0.0, 'abimer': 0.0, 'abonnement': 0.0, 'abonné': 0.0, 'abord': 0.0, 'abordable': 0.0, 'aborder': 0.0, 'aboutir': 0.0, 'aboutissants': 0.0, 'absolu': 0.0, 'absolument': 0.0, 'absorber': 0.0, 'accepter': 0.0, 'accessibilité': 0.0,
'accessible': 0.0, 'accompagnement': 0.0, 'accompagner': 0.0, 'accord': 0.0, 'accrocher': 0.0, 'accueillir': 0.0, 'accès': 0.0, 'accédant': 0.0, 'achat': 0.0, 'acheminement': 0.0, 'acheminer': 0.0, 'acheter': 0.0, 'acheteur': 0.0, 'achille': 0.0, 'acquis': 0.0, 'acteur': 0.0, 'actionneur': 0.0, 'activité': 0.0, 'actuel': 0.0, 'actuellement': 0.0, 'ad': 0.0, 'adaptabilité': 0.0, 'adaptable': 0.0, 'adaptation': 0.0, 'adapter': 0.0, 'adhérer': 0.0, 'admettre': 0.0, 'adopter': 0.0, 'adorer': 0.0, 'adressage': 0.0, 'adresse': 0.0, 'adresser': 0.0, 'adroit': 0.0, 'adéquation': 0.0, 'aeternam': 0.0, 'affaire': 0.0, 'affaisser': 0.0, 'affectif': 0.0, 'afficher': 0.0, 'agence': 0.0, 'agencer': 0.0, 'agent': 0.0, 'agile': 0.0, 'agir': 0.0, 'agréable': 0.0, 'ah': 0.0, 'aide': 0.0, 'aider': 0.0, 'aiguille': 0.0, 'ailleurs': 0.0, 'aimer': 0.0, 'aimerer': 0.0, 'ainsi': 0.0, 'air': 0.0, 'ajout': 0.0, 'ajouter': 0.0, 'alarme': 0.0, 'alec': 0.0, 'alerte': 0.0, 'alignement': 0.0, 'aliment': 0.0, 'alimenter': 0.0, 'allemand': 0.0, 'aller': 0.04801887300534891, 'allumer': 0.0, 'allègement': 0.0, 'alléger': 0.0, 'alors': 0.0, 'altérer': 0.0, 'aléa': 0.0, 'aléatoire': 0.0, 'amateur': 0.0, 'ambitieux': 0.0, 'amener': 0.0, 'ami': 0.0, 'amont': 0.0, 'amp': 0.0, 'amplement': 0.0, 'amplification': 0.0, 'amplitude': 0.0, 'ampoule': 0.0, 'ampère': 0.0, 'ampérage': 0.0, 'amuser': 0.0, 'amélioration': 0.0, 'améliorer': 0.0, 'aménagement': 0.0, 'américain': 0.0, 'an': 0.0, 'analogique': 0.0, 'analyse': 0.0, 'analyser': 0.0, 'ancien': 0.0, 'anecdote': 0.0, 'angle': 0.0, 'angulation': 0.0, 'animal': 0.0, 'animateur': 0.0, 'animation': 0.0, 'animer': 0.0, 'annexe': 0.0, 'annoncer': 0.0, 'année': 0.0, 'anomalie': 0.0, 'anti': 0.0, 'anticiper': 0.0, 'antérieur': 0.0, 'aperçu': 0.0, 'appareil': 0.08481295950129053, 'apparemment': 0.0, 'apparent': 0.0, 'appartement': 0.0, 'appel': 0.0, 'appeler': 0.0, 'apple': 0.0, 'appli': 0.0, 'applicable': 0.0, 'application': 0.0, 'appliquer': 0.0, 'apporter': 0.0, 'apprentissage': 0.0, 'approche': 0.0, 'approcher': 0.0, 'approfondir': 0.0, 'apprécier': 0.0, 'appuyer': 0.0, 'après': 0.0, 'architectural': 0.0, 'architecture': 0.0, 'argent': 0.0, 'argon': 0.0, 'arme': 0.0, 'armoire': 0.0, 'arracher': 0.0, 'arranger': 0.0, 'arriver': 0.0, 'arrivée': 0.0, 'arrière': 0.0, 'arrêter': 0.0, 'arthroscope': 0.0, 'arthroscopie': 0.0, 'arthrose': 0.0, 'article': 0.0, 'articulaire': 0.0, 'articulation': 0.0, 'artificiel': 0.0, 'ascenseur': 0.0, 'asi': 0.0, 'aspect': 0.0, 'asseoir': 0.0, 'assez': 0.0, 'assister': 0.0, 'association': 0.0, 'associer': 0.0, 'assurer': 0.0, 'astreinte': 0.0, 'ate': 0.0, 'atelier': 0.0, 'atout': 0.0, 'attacher': 0.0, 'attendre': 0.0, 'attente': 0.0, 'attention': 0.0, 'attirer': 0.0, 'attractif': 0.0, 'attrayant': 0.0, 'au': 0.0, 'aucun': 0.0, 'audi': 0.0, 'audio': 0.0, 'audiovisuel': 0.0, 'augmenter': 0.0, 'aujourd': 0.0, 'auprès': 0.0, 'aussi': 0.0, 'autant': 0.0, 'auto': 0.0, 'autocontrôle': 0.0, 'automate': 0.0, 'automaticien': 0.0, 'automatique': 0.0, 'automatiquement': 0.0, 'automatisation': 0.0, 'automatiser': 0.0, 'automatisme': 0.0, 'automne': 0.0, 'autonome': 0.0, 'autoportation': 0.0, 'autoporter': 0.0, 'autoportée': 0.0, 'autotestable': 0.0, 'autour': 0.0, 'autre': 0.0, 'autrement': 0.0, 'auxiliaire': 0.0, 'avaler': 0.0, 'avance': 0.0, 'avancer': 0.0, 'avancée': 0.0, 'avant': 0.0, 'avantage': 0.0, 'avec': 0.0, 'avenir': 0.0, 'aveugle': 0.0, 'avion': 0.0, 'avis': 0.0, 'avoir': 0.1346176447928104, 'axe': 0.0, 'axer': 0.0, 'aération': 0.0, 'aéroport': 0.0, 'bac': 0.0, 'baffe': 0.0, 'bague': 0.0, 'bah': 0.0, 'bailleur': 0.0, 'baisse': 0.0, 'baisser': 0.0, 'balance': 0.0, 'balayer': 0.0, 'baliser': 0.0, 'banalisation': 0.0, 'banaliser': 0.0, 'bandeau': 0.0, 'banque': 0.0, 'barre': 0.0, 'barrette': 0.0, 'bas': 0.0, 'basculer': 0.0, 'base': 0.0, 'bataille': 0.0, 'bcp': 0.0, 'beau': 0.0, 'beaucoup': 0.22389582526223997, 'bec': 0.0, 'belge': 0.0, 'ben': 0.0, 'benelu': 0.0, 'besoin': 0.0, 'beurre': 0.0, 'biais': 0.0, 'bibliothèque': 0.0, 'bien': 0.0, 'blanc': 0.0, 'blindé': 0.0, 'bloc': 0.0, 'bloquer': 0.0, 'bluffer': 0.0, 'bobine': 0.0, 'bois': 0.0, 'boite': 0.0, 'boitier': 0.0, 'bon': 0.0, 'bond': 0.0, 'bonheur': 0.0, 'bord': 0.0, 'bornier': 0.0, 'botter': 0.0, 'bouchon': 0.0, 'bouger': 0.0, 'boulot': 0.0, 'bourriquot': 0.0, 'bout': 0.0, 'bouteille': 0.0, 'bouton': 0.0, 'box': 0.0, 'boîte': 0.0, 'boîtier': 0.0, 'bp': 0.0, 'bpjep': 0.0, 'branche': 0.0, 'branchement': 0.0, 'brancher': 0.0, 'brancherdébrancher': 0.0, 'bras': 0.0, 'break': 0.0, 'bric': 0.0, 'bricoler': 0.0, 'bricoleur': 0.0, 'brider': 0.0, 'bridé': 0.0, 'brique': 0.0, 'broc': 0.0, 'brouiller': 0.0, 'brut': 0.0, 'budget': 0.0, 'budgétaire': 0.0, 'bureau': 0.0, 'bus': 0.0, 'but': 0.0, 'bâtiment': 0.0, 'bémol': 0.0, 'bénéficier': 0.0, 'cacao': 0.0, 'cacher': 0.0, 'caché': 0.0, 'cadencement': 0.0, 'cadre': 0.0, 'cadrer': 0.0, 'cadré': 0.0, 'cahier': 0.0, 'caillou': 0.0, 'caisse': 0.0, 'calculer': 0.0, 'caler': 0.0, 'calfeutrement': 0.0, 'calibre': 0.0, 'calibrer': 0.0, 'calme': 0.0, 'calorie': 0.0, 'came': 0.0, 'caméra': 0.0, 'candidat': 0.0, 'canopen':
0.0, 'cantonner': 0.0, 'cantou': 0.0, 'capable': 0.0, 'capacité': 0.0, 'capote': 0.0, 'capter': 0.0, 'capteur': 0.0, 'car': 0.0, 'caractéristique': 0.0, 'cardialogue': 0.0, 'cardiaque': 0.0, 'cardio': 0.0, 'cardiologue': 0.0, 'carotide': 0.0, 'carrefour': 0.0, 'carré': 0.0, 'carrément': 0.0, 'carte': 0.0, 'cartilage': 0.0, 'carton': 0.0, 'cartouche': 0.0, 'cas': 0.0, 'casse': 0.0, 'casser': 0.0, 'catalogue': 0.0, 'catégorie': 0.0, 'cauchemar': 0.0, 'cause': 0.0, 'cave': 0.0, 'cbo': 0.0, 'cd': 0.0, 'ce': 0.11333464506110791, 'cela': 0.0, 'cellier': 0.0, 'cellule': 0.0, 'celui': 0.0, 'censurer': 0.0, 'centaine': 0.0, 'centime': 0.0, 'centraliser': 0.0, 'certain': 0.0, 'certainement': 0.0, 'chacun': 0.0, 'chambouler': 0.0, 'chambre': 0.0, 'champ': 0.0, 'chance': 0.0, 'changement': 0.0, 'changer': 0.0, 'chant': 0.0, 'chantier': 0.0, 'chaque': 0.0, 'charge': 0.0, 'charger': 0.0, 'chat': 0.0, 'chaud': 0.0, 'chaudière': 0.0, 'chauffage': 0.0, 'chauffer': 0.0, 'chaufferie': 0.0, 'chaîne': 0.0, 'chef': 0.0, 'cher': 0.0, 'chercher': 0.0, 'cheval': 0.0, 'chez': 0.0, 'chiant': 0.0, 'chien': 0.0, 'chier': 0.0, 'chiffre': 0.0, 'chinois': 0.0, 'chipotage': 0.0, 'chipotager': 0.0, 'chirurgical': 0.0, 'chirurgie': 0.0, 'chirurgien': 0.0, 'choc': 0.0, 'chocolat': 0.0, 'choisir': 0.0, 'choix': 0.0, 'choquer': 0.0, 'chose': 0.0, 'choseidem': 0.0, 'chouet': 0.0, 'chouette': 0.0, 'ci': 0.0, 'cible': 0.0, 'ciblé': 0.0, 'cicatrice': 0.0, 'cicatriciel': 0.0, 'cimentier': 0.0, 'cinquantaine': 0.0, 'cinéma': 0.0, 'circuit': 0.0, 'circuler': 0.0, 'ciseau': 0.0, 'clair': 0.0, 'clairement': 0.0, 'classe': 0.0, 'classeur': 0.0, 'classique': 0.0, 'clavette': 0.0, 'clayette': 0.0, 'client': 0.0, 'clientèle': 0.0, 'clinique': 0.0, 'clip': 0.0, 'cliquer': 0.0, 'clé': 0.0, 'cm': 0.0, 'cnpi': 0.0, 'code': 0.0, 'coelio': 0.0, 'coelioscopie': 0.0, 'cohésion': 0.0, 'coin': 0.0, 'coincer': 0.0, 'coincé': 0.0, 'colle': 0.0, 'coller': 0.0, 'collègue': 0.0, 'colonne': 0.0, 'com': 0.0, 'combien': 0.0, 'combiné': 0.0, 'comm': 0.0, 'commande': 0.0, 'commander': 0.0, 'comme': 0.0, 'commencer': 0.0, 'comment': 0.0, 'commerce': 0.0, 'commercial': 0.0, 'commode': 0.0, 'communicant': 0.0, 'communication': 0.0, 'communiquer': 0.0, 'compacité': 0.0, 'compact': 0.0, 'compacter': 0.0, 'comparaison': 0.0, 'comparatif': 0.14295368158501306, 'comparer': 0.0, 'compartiment': 0.0, 'compatibilité': 0.0, 'compect': 0.0, 'compenser': 0.0, 'complet': 0.0, 'complexe': 0.0, 'complexer': 0.0, 'complexifier': 0.0, 'complexité': 0.0, 'compliquer': 0.0, 'compliqué': 0.0, 'complètement': 0.0, 'complémentaire': 0.0, 'compléter': 0.0, 'composant': 0.0, 'composer': 0.0, 'composition': 0.0, 'compote': 0.0, 'comprendre': 0.0, 'compresseur': 0.0, 'comprimé': 0.0, 'compréhension': 0.0, 'comptabilité': 0.0, 'comptable': 0.0, 'comptage': 0.0, 'compte': 0.0, 'compter': 0.0, 'compteur': 0.0, 'compulser': 0.0, 'compétence': 0.0, 'compétent': 0.0, 'compétitif': 0.0, 'concentrateur': 0.0, 'concentrer': 0.0, 'concept': 0.0, 'concepteur': 0.0, 'conception': 0.0, 'conceptuellement': 0.0, 'concernant': 0.0, 'concerner': 0.0, 'concertation': 0.0, 'concevoir': 0.0, 'concurrence': 0.0, 'condenseur': 0.0, 'condile': 0.0, 'condition': 0.0, 'conditionnement': 0.0, 'conditionner': 0.0, 'conducteur': 0.0, 'confiance': 0.0, 'confidentiel': 0.0, 'configurable': 0.0, 'configuration': 0.0, 'configurer': 0.0, 'confiner': 0.0, 'confirmer': 0.0, 'conforme': 0.0, 'confort': 0.0, 'confronter': 0.0, 'congélateur': 0.0, 'conjoint': 0.0, 'connaissance': 0.0, 'connaisseur': 0.0, 'connaître': 0.0, 'connectable': 0.0, 'connecter': 0.0, 'connectique': 0.0, 'connectivité': 0.0, 'connerie': 0.0, 'conscient': 0.0, 'conservation': 0.0, 'conserver': 0.0, 'considérable': 0.0, 'considérer': 0.0, 'consignation': 0.0, 'conso': 0.0, 'consommable': 0.0, 'consommateur': 0.0, 'consommation': 0.0, 'consommer': 0.0, 'constat': 0.0, 'constater': 0.0, 'constructeur': 0.0, 'construction': 0.0, 'construire': 0.0, 'constulation': 0.0, 'conséquence': 0.0, 'contaception': 0.0, 'contact': 0.0, 'contacteur': 0.0, 'content': 0.0, 'contenter': 0.0, 'contenu': 0.0, 'contexte': 0.0, 'continu': 0.0, 'continuer': 0.0, 'continuité': 0.0, 'contraceptif': 0.0, 'contraignant': 0.0, 'contrainte': 0.0, 'contraire': 0.0, 'contrat': 0.0, 'contre': 0.0, 'controllogix': 0.0, 'contrôle': 0.0, 'contrôler': 0.0, 'contrôleur': 0.0, 'convaincre': 0.0, 'convenable': 0.0, 'convenir': 0.0, 'convivial': 0.0, 'convivialité': 0.0, 'convoyeur': 0.0, 'cool': 0.0, 'coordination': 0.0, 'coordonner': 0.0, 'cordial': 0.0, 'corne': 0.0, 'corner': 0.0, 'corps': 0.0, 'correct': 0.0, 'correctement': 0.0, 'correspondre': 0.0, 'corriger': 0.0, 'corrosif': 0.0, 'corrosion': 0.0, 'costaud': 0.0, 'cotation': 0.0, 'cou': 0.0, 'couche': 0.0, 'coucher': 0.0, 'couillon': 0.0, 'couler': 0.0, 'couleur': 0.0, 'coulir': 0.0, 'coulissant': 0.0, 'coup': 0.0, 'coupe': 0.0, 'couper': 0.0, 'couple': 0.0, 'coupure': 0.0, 'courant': 0.0, 'courbe': 0.0, 'courir': 0.0, 'cours': 0.0, 'course': 0.0, 'court': 0.0, 'cout': 0.0, 'couteau': 0.0, 'couter': 0.0, 'couverture': 0.0, 'coût': 0.0, 'coûter': 0.0, 'cpe': 0.0, 'cpoté':
0.0, 'cracher': 0.0, 'crainte': 0.0, 'creux': 0.0, 'crise': 0.0, 'critique': 0.0, 'croire': 0.0, 'croiser': 0.0, 'cru': 0.0, 'crème': 0.0, 'créateur': 0.0, 'créatif': 0.0, 'crédible': 0.0, 'créer': 0.0, 'créneau': 0.0, 'cube': 0.0, 'cuillère':
0.0, 'cuire': 0.0, 'cuisine': 0.08837571390528075, 'cuisinella': 0.0, 'cuisinier': 0.0, 'cuisiniste': 0.0, 'cul': 0.0, 'cutané': 0.0, 'cutter': 0.0, 'cv': 0.0, 'cycle': 0.0, 'cylindre': 0.0, 'câblage': 0.0, 'câble': 0.0, 'câbler': 0.0, 'câbleur': 0.0, 'câblé': 0.0, 'célibataire': 0.0, 'côté': 0.0, 'cœur': 0.0, 'da': 0.0, 'dabord': 0.0, 'daccord': 0.0, 'dacia': 0.0, 'dahlander': 0.0, 'dame': 0.0, 'dangereux': 0.0, 'dans': 0.0, 'datacenter': 0.0, 'davantage': 0.0, 'ddi': 0.0, 'de': 0.07831962864753673, 'debout': 0.0, 'dedans': 0.0, 'degré': 0.0, 'dehors': 0.0, 'delà': 0.0, 'demain': 0.0, 'demande': 0.0, 'demander': 0.0, 'demi': 0.0, 'depuis': 0.0, 'dernier': 0.0, 'derrière': 0.0, 'descendre': 0.0, 'design': 0.0, 'desserrer': 0.0, 'dessin': 0.0, 'dessiner': 0.0, 'dessous': 0.0, 'dessus': 0.09267021850830469, 'destiner': 0.0, 'destructurer': 0.0, 'deux': 0.1767514278105615, 'deuxième': 0.0, 'devant': 0.0, 'devenir': 0.0, 'devoir': 0.0, 'dexterite': 0.0, 'dextérité': 0.0, 'dhumiditer': 0.0, 'diagnostic': 0.0, 'diagnostique': 0.0, 'diagnostiquer': 0.0, 'dialogue': 0.0, 'diapo': 0.0, 'diapositive': 0.0, 'dietrich': 0.0, 'difficile': 0.0, 'difficilement': 0.0, 'difficulté': 0.0, 'différemment': 0.0, 'différence': 0.0, 'différent': 0.0, 'différentiel': 0.0, 'dimension': 0.0, 'diminuer': 0.0, 'diminution': 0.0, 'dire': 0.15518724114760088, 'direct': 0.0, 'directement': 0.0, 'direction': 0.0, 'directrice': 0.0, 'dirper': 0.0, 'discret': 0.0, 'discuter': 0.0, 'disfonctionnement': 0.0, 'disjoncter': 0.0, 'disjoncteur': 0.0, 'disjonction': 0.0, 'disparaître': 0.0, 'dispenser': 0.0, 'disponible': 0.0, 'disposer': 0.0, 'dispositif': 0.0, 'disposition': 0.0, 'disque': 0.0, 'dissuader': 0.0, 'disséquer': 0.0, 'distal': 0.0, 'distance': 0.0, 'distribuer': 0.0, 'distributeur': 0.0, 'distribution': 0.0, 'divaguer': 0.0, 'diversifier': 0.0, 'diviser': 0.0, 'dix': 0.0, 'dmi': 0.0, 'dmr': 0.0, 'doc': 0.0, 'document': 0.0, 'doigt': 0.0, 'domaine': 0.0, 'dommage': 0.0, 'domotique': 0.0, 'donc': 0.05341883971923289, 'donner': 0.0, 'donnée': 0.0, 'dont': 0.0, 'dor': 0.0, 'dos': 0.0, 'dosage': 0.0, 'dose': 0.0, 'doser': 0.0, 'dossier': 0.0, 'double': 0.0, 'doubler': 0.0, 'doublon': 0.0, 'doucement': 0.0, 'douloureux': 0.0, 'doute': 0.0, 'droit': 0.0, 'droite': 0.0, 'drôle': 0.0, 'dsx': 0.0, 'du': 0.0806645867290536, 'dun': 0.0, 'dur': 0.0, 'durabilité': 0.0, 'durant': 0.0, 'durcire': 0.0, 'durer': 0.0, 'dvd': 0.0, 'dysfonctionnement': 0.0, 'dysfonctionner': 0.0, 'dès': 0.0, 'dé': 0.0, 'débarquer': 0.0, 'débarrasser': 0.0, 'débit': 0.0, 'déboiter': 0.0, 'débrider': 0.0, 'débrochable': 0.0, 'débrocher': 0.0, 'débrouiller': 0.0, 'début': 0.0, 'débutant': 0.0, 'décaler': 0.0, 'décider': 0.0, 'déclenchement': 0.0, 'déco': 0.0, 'décor': 0.0, 'découverte': 0.0, 'découvrir': 0.0, 'décrire': 0.0, 'dédier': 0.0, 'défaillance': 0.0, 'défaut': 0.0, 'défavorable': 0.0, 'défilé': 0.0, 'définir': 0.0, 'définitif': 0.0, 'dégager': 0.0, 'dégradation': 0.0, 'dégrader': 0.0, 'dégueulass': 0.0, 'dégénératif': 0.0, 'déjà': 0.0, 'délai': 0.0, 'délicat': 0.0, 'délivrer': 0.0, 'démarche': 0.0, 'démarrage': 0.0, 'démarrer': 0.0, 'démarreur': 0.0, 'dément': 0.0, 'démo': 0.0, 'démocratisation': 0.0, 'démonstration': 0.0, 'démonter': 0.0, 'dépannage': 0.0, 'dépanner': 0.0, 'départ': 0.0, 'dépasser': 0.0, 'dépendant': 0.0, 'dépendre': 0.0, 'dépenser': 0.0, 'déplacement': 0.0, 'déplacer': 0.0, 'déporter': 0.0, 'déporté': 0.0, 'déranger': 0.0, 'dérivation': 0.0, 'dérive': 0.0, 'déroulement': 0.0, 'désinhinber': 0.0, 'désuétude': 0.0, 'détail': 0.0, 'détailler': 0.0, 'détecter': 0.0, 'déterminer': 0.0, 'détriment': 0.0, 'développement': 0.0, 'développer': 0.0, 'déverser': 0.0, 'dévisser': 0.0, 'déçu': 0.0, 'eaton': 0.0, 'eau': 0.0, 'ecg': 0.0, 'effacer': 0.0, 'effectivement': 0.0, 'effectuer': 0.0, 'efficacité': 0.0, 'electrical': 0.0, 'emballage': 0.0, 'embarquer': 0.0, 'emblée': 0.0, 'embêter': 0.0, 'emmagasiner': 0.0, 'emmener': 0.0, 'emmerder': 0.0, 'empiler': 0.0, 'emploi': 0.0, 'employer': 0.0, 'employeur': 0.0, 'emporter': 0.0, 'empêcher': 0.0, 'en': 0.0, 'encadrer': 0.0, 'encastrable': 0.0, 'encastrement': 0.0, 'enclenchement': 0.0, 'enclencher': 0.0, 'encombrement': 0.0, 'encore': 0.0, 'encrassement': 0.0, 'encrasser': 0.0, 'end': 0.0, 'endo': 0.0, 'endocorporel': 0.0, 'endommager': 0.0, 'endoscopie': 0.0, 'endoscopique': 0.0, 'endroit': 0.0, 'enfant': 0.0, 'enfer': 0.0, 'enfin': 0.07631042395533352, 'enfoncer': 0.0, 'enlever': 0.0, 'ennuyer': 0.0, 'enregistrement': 0.0, 'enregistrer': 0.0, 'enrichir': 0.0, 'enrichissant': 0.0, 'enrichissement': 0.0, 'enroulement': 0.0, 'enseigne': 0.0, 'ensemble': 0.10538078499719479, 'ensuite': 0.0, 'entamer': 0.0, 'entendre': 0.0, 'entraide': 0.0, 'entraîner': 0.0, 'entre': 0.0, 'entreprise': 0.0, 'entrer': 0.0, 'entretenir': 0.0, 'entretien': 0.0, 'entrée': 0.0}
目标是仅提取具有中等 tfidf 分数的单词:不太高,也太小,但因为每个单词都有 0.0;正常吗?
I am trying to compute all the tfidf scores of words in my data but when printing the score, most of the data are equal to 0.0. Is it normal ?
import os, sys, re
import pandas as pd
import statistics
from sklearn.feature_extraction.text import TfidfVectorizer
import stanza
import spacy_stanza
import warnings
warnings.filterwarnings("ignore")
#stanza.download('fr')
spacynlp = spacy_stanza.load_pipeline('fr', processors='tokenize,mwt,pos,lemma')
def gettfidf_score(liste):
vectorizer_tfidf = TfidfVectorizer()
X = vectorizer_tfidf.fit_transform(liste)
#print(vectorizer_tfidf.get_feature_names())
print(X.toarray())
dico = dict(zip(vectorizer_tfidf.get_feature_names(), X.toarray()[0]))
print(dico)
liste_candidat = []
mean_score = []
for k, v in dico.items():
mean_score.append(v)
#print(mean_score)
print(statistics.mean(mean_score))
datas = ['dire que il ne falloir pas que on que on être euh que on être beaucoup beaucoup à le dessus quoi parce que il y avoir toujours il y avoir toujours le comparatif ce que il y avoir ce être que le réfrigérateur seul le réfrigérateur seul ce être à dire un seul appareil être trop petit par rapport à le marché réel de le cuisine ce être à dire là où il y avoir du potentiel de vente le litrage de un seul produit être trop faible il falloir à le moins deux produit donc le deux produit ensemble il falloir voilà il falloir que ça rester sur enfin il ne falloir pas que ça aller beaucoup plus haut quoi', 'sur le station de pompage ce être très intéressant car milieu polluer corrosif', 'qui être spécialiste ben le informaticien chez il il penser il penser que ce être ce être tellement pointu que ce être comme si un comptable il venir lui mettre de le de le information qui ne le concerner pas trop venir de gestion de maintenance ou un chose comme ça si ce n être pas bien faire et que ça venir lui perturber son comptabilité il ne aller pas être de accord longtemps hein il penser il le voir comme ça', 'non dire le degré de liberté de on savoir que déjà en coelioscopie ce être normal on pouvoir faire beaucoup mieux si il apporter le amplitude à le mouvement et le souplesse dans le manipulation ça ça être également un point très important ce être ce que permettre de ailleurs le da vinci donc il dire que par rapport si on pouvoir dire si on se comparer à le da vinci il apporter en plus un mise en place un mise en route un mise en œuvre beaucoup plus rapide on pouvoir le souhaiter pour le achat de le appareil non consommable qui être inférieur un consommable qui être équivalent ou pas plus cher en performance il apporter le de un apprentissage facile le facilité de le degré de liberté de le différent mouvement et puis il apporter en plus le miniaturisation le sensation tactile voilà'] # exemple : original file is too long
for elt in datas:
elt = cleaning(elt)
nlpdoc = spacynlp(str(elt))
#print(nlpdoc)
nlpdoc = [token.lemma_ for token in nlpdoc ]
list_sent.append(" ".join(nlpdoc))
print(list_sent)
gettfidf_score(list_sent)
I get this result :
{'abandonner': 0.0, 'abimer': 0.0, 'abonnement': 0.0, 'abonné': 0.0, 'abord': 0.0, 'abordable': 0.0, 'aborder': 0.0, 'aboutir': 0.0, 'aboutissants': 0.0, 'absolu': 0.0, 'absolument': 0.0, 'absorber': 0.0, 'accepter': 0.0, 'accessibilité': 0.0,
'accessible': 0.0, 'accompagnement': 0.0, 'accompagner': 0.0, 'accord': 0.0, 'accrocher': 0.0, 'accueillir': 0.0, 'accès': 0.0, 'accédant': 0.0, 'achat': 0.0, 'acheminement': 0.0, 'acheminer': 0.0, 'acheter': 0.0, 'acheteur': 0.0, 'achille': 0.0, 'acquis': 0.0, 'acteur': 0.0, 'actionneur': 0.0, 'activité': 0.0, 'actuel': 0.0, 'actuellement': 0.0, 'ad': 0.0, 'adaptabilité': 0.0, 'adaptable': 0.0, 'adaptation': 0.0, 'adapter': 0.0, 'adhérer': 0.0, 'admettre': 0.0, 'adopter': 0.0, 'adorer': 0.0, 'adressage': 0.0, 'adresse': 0.0, 'adresser': 0.0, 'adroit': 0.0, 'adéquation': 0.0, 'aeternam': 0.0, 'affaire': 0.0, 'affaisser': 0.0, 'affectif': 0.0, 'afficher': 0.0, 'agence': 0.0, 'agencer': 0.0, 'agent': 0.0, 'agile': 0.0, 'agir': 0.0, 'agréable': 0.0, 'ah': 0.0, 'aide': 0.0, 'aider': 0.0, 'aiguille': 0.0, 'ailleurs': 0.0, 'aimer': 0.0, 'aimerer': 0.0, 'ainsi': 0.0, 'air': 0.0, 'ajout': 0.0, 'ajouter': 0.0, 'alarme': 0.0, 'alec': 0.0, 'alerte': 0.0, 'alignement': 0.0, 'aliment': 0.0, 'alimenter': 0.0, 'allemand': 0.0, 'aller': 0.04801887300534891, 'allumer': 0.0, 'allègement': 0.0, 'alléger': 0.0, 'alors': 0.0, 'altérer': 0.0, 'aléa': 0.0, 'aléatoire': 0.0, 'amateur': 0.0, 'ambitieux': 0.0, 'amener': 0.0, 'ami': 0.0, 'amont': 0.0, 'amp': 0.0, 'amplement': 0.0, 'amplification': 0.0, 'amplitude': 0.0, 'ampoule': 0.0, 'ampère': 0.0, 'ampérage': 0.0, 'amuser': 0.0, 'amélioration': 0.0, 'améliorer': 0.0, 'aménagement': 0.0, 'américain': 0.0, 'an': 0.0, 'analogique': 0.0, 'analyse': 0.0, 'analyser': 0.0, 'ancien': 0.0, 'anecdote': 0.0, 'angle': 0.0, 'angulation': 0.0, 'animal': 0.0, 'animateur': 0.0, 'animation': 0.0, 'animer': 0.0, 'annexe': 0.0, 'annoncer': 0.0, 'année': 0.0, 'anomalie': 0.0, 'anti': 0.0, 'anticiper': 0.0, 'antérieur': 0.0, 'aperçu': 0.0, 'appareil': 0.08481295950129053, 'apparemment': 0.0, 'apparent': 0.0, 'appartement': 0.0, 'appel': 0.0, 'appeler': 0.0, 'apple': 0.0, 'appli': 0.0, 'applicable': 0.0, 'application': 0.0, 'appliquer': 0.0, 'apporter': 0.0, 'apprentissage': 0.0, 'approche': 0.0, 'approcher': 0.0, 'approfondir': 0.0, 'apprécier': 0.0, 'appuyer': 0.0, 'après': 0.0, 'architectural': 0.0, 'architecture': 0.0, 'argent': 0.0, 'argon': 0.0, 'arme': 0.0, 'armoire': 0.0, 'arracher': 0.0, 'arranger': 0.0, 'arriver': 0.0, 'arrivée': 0.0, 'arrière': 0.0, 'arrêter': 0.0, 'arthroscope': 0.0, 'arthroscopie': 0.0, 'arthrose': 0.0, 'article': 0.0, 'articulaire': 0.0, 'articulation': 0.0, 'artificiel': 0.0, 'ascenseur': 0.0, 'asi': 0.0, 'aspect': 0.0, 'asseoir': 0.0, 'assez': 0.0, 'assister': 0.0, 'association': 0.0, 'associer': 0.0, 'assurer': 0.0, 'astreinte': 0.0, 'ate': 0.0, 'atelier': 0.0, 'atout': 0.0, 'attacher': 0.0, 'attendre': 0.0, 'attente': 0.0, 'attention': 0.0, 'attirer': 0.0, 'attractif': 0.0, 'attrayant': 0.0, 'au': 0.0, 'aucun': 0.0, 'audi': 0.0, 'audio': 0.0, 'audiovisuel': 0.0, 'augmenter': 0.0, 'aujourd': 0.0, 'auprès': 0.0, 'aussi': 0.0, 'autant': 0.0, 'auto': 0.0, 'autocontrôle': 0.0, 'automate': 0.0, 'automaticien': 0.0, 'automatique': 0.0, 'automatiquement': 0.0, 'automatisation': 0.0, 'automatiser': 0.0, 'automatisme': 0.0, 'automne': 0.0, 'autonome': 0.0, 'autoportation': 0.0, 'autoporter': 0.0, 'autoportée': 0.0, 'autotestable': 0.0, 'autour': 0.0, 'autre': 0.0, 'autrement': 0.0, 'auxiliaire': 0.0, 'avaler': 0.0, 'avance': 0.0, 'avancer': 0.0, 'avancée': 0.0, 'avant': 0.0, 'avantage': 0.0, 'avec': 0.0, 'avenir': 0.0, 'aveugle': 0.0, 'avion': 0.0, 'avis': 0.0, 'avoir': 0.1346176447928104, 'axe': 0.0, 'axer': 0.0, 'aération': 0.0, 'aéroport': 0.0, 'bac': 0.0, 'baffe': 0.0, 'bague': 0.0, 'bah': 0.0, 'bailleur': 0.0, 'baisse': 0.0, 'baisser': 0.0, 'balance': 0.0, 'balayer': 0.0, 'baliser': 0.0, 'banalisation': 0.0, 'banaliser': 0.0, 'bandeau': 0.0, 'banque': 0.0, 'barre': 0.0, 'barrette': 0.0, 'bas': 0.0, 'basculer': 0.0, 'base': 0.0, 'bataille': 0.0, 'bcp': 0.0, 'beau': 0.0, 'beaucoup': 0.22389582526223997, 'bec': 0.0, 'belge': 0.0, 'ben': 0.0, 'benelu': 0.0, 'besoin': 0.0, 'beurre': 0.0, 'biais': 0.0, 'bibliothèque': 0.0, 'bien': 0.0, 'blanc': 0.0, 'blindé': 0.0, 'bloc': 0.0, 'bloquer': 0.0, 'bluffer': 0.0, 'bobine': 0.0, 'bois': 0.0, 'boite': 0.0, 'boitier': 0.0, 'bon': 0.0, 'bond': 0.0, 'bonheur': 0.0, 'bord': 0.0, 'bornier': 0.0, 'botter': 0.0, 'bouchon': 0.0, 'bouger': 0.0, 'boulot': 0.0, 'bourriquot': 0.0, 'bout': 0.0, 'bouteille': 0.0, 'bouton': 0.0, 'box': 0.0, 'boîte': 0.0, 'boîtier': 0.0, 'bp': 0.0, 'bpjep': 0.0, 'branche': 0.0, 'branchement': 0.0, 'brancher': 0.0, 'brancherdébrancher': 0.0, 'bras': 0.0, 'break': 0.0, 'bric': 0.0, 'bricoler': 0.0, 'bricoleur': 0.0, 'brider': 0.0, 'bridé': 0.0, 'brique': 0.0, 'broc': 0.0, 'brouiller': 0.0, 'brut': 0.0, 'budget': 0.0, 'budgétaire': 0.0, 'bureau': 0.0, 'bus': 0.0, 'but': 0.0, 'bâtiment': 0.0, 'bémol': 0.0, 'bénéficier': 0.0, 'cacao': 0.0, 'cacher': 0.0, 'caché': 0.0, 'cadencement': 0.0, 'cadre': 0.0, 'cadrer': 0.0, 'cadré': 0.0, 'cahier': 0.0, 'caillou': 0.0, 'caisse': 0.0, 'calculer': 0.0, 'caler': 0.0, 'calfeutrement': 0.0, 'calibre': 0.0, 'calibrer': 0.0, 'calme': 0.0, 'calorie': 0.0, 'came': 0.0, 'caméra': 0.0, 'candidat': 0.0, 'canopen':
0.0, 'cantonner': 0.0, 'cantou': 0.0, 'capable': 0.0, 'capacité': 0.0, 'capote': 0.0, 'capter': 0.0, 'capteur': 0.0, 'car': 0.0, 'caractéristique': 0.0, 'cardialogue': 0.0, 'cardiaque': 0.0, 'cardio': 0.0, 'cardiologue': 0.0, 'carotide': 0.0, 'carrefour': 0.0, 'carré': 0.0, 'carrément': 0.0, 'carte': 0.0, 'cartilage': 0.0, 'carton': 0.0, 'cartouche': 0.0, 'cas': 0.0, 'casse': 0.0, 'casser': 0.0, 'catalogue': 0.0, 'catégorie': 0.0, 'cauchemar': 0.0, 'cause': 0.0, 'cave': 0.0, 'cbo': 0.0, 'cd': 0.0, 'ce': 0.11333464506110791, 'cela': 0.0, 'cellier': 0.0, 'cellule': 0.0, 'celui': 0.0, 'censurer': 0.0, 'centaine': 0.0, 'centime': 0.0, 'centraliser': 0.0, 'certain': 0.0, 'certainement': 0.0, 'chacun': 0.0, 'chambouler': 0.0, 'chambre': 0.0, 'champ': 0.0, 'chance': 0.0, 'changement': 0.0, 'changer': 0.0, 'chant': 0.0, 'chantier': 0.0, 'chaque': 0.0, 'charge': 0.0, 'charger': 0.0, 'chat': 0.0, 'chaud': 0.0, 'chaudière': 0.0, 'chauffage': 0.0, 'chauffer': 0.0, 'chaufferie': 0.0, 'chaîne': 0.0, 'chef': 0.0, 'cher': 0.0, 'chercher': 0.0, 'cheval': 0.0, 'chez': 0.0, 'chiant': 0.0, 'chien': 0.0, 'chier': 0.0, 'chiffre': 0.0, 'chinois': 0.0, 'chipotage': 0.0, 'chipotager': 0.0, 'chirurgical': 0.0, 'chirurgie': 0.0, 'chirurgien': 0.0, 'choc': 0.0, 'chocolat': 0.0, 'choisir': 0.0, 'choix': 0.0, 'choquer': 0.0, 'chose': 0.0, 'choseidem': 0.0, 'chouet': 0.0, 'chouette': 0.0, 'ci': 0.0, 'cible': 0.0, 'ciblé': 0.0, 'cicatrice': 0.0, 'cicatriciel': 0.0, 'cimentier': 0.0, 'cinquantaine': 0.0, 'cinéma': 0.0, 'circuit': 0.0, 'circuler': 0.0, 'ciseau': 0.0, 'clair': 0.0, 'clairement': 0.0, 'classe': 0.0, 'classeur': 0.0, 'classique': 0.0, 'clavette': 0.0, 'clayette': 0.0, 'client': 0.0, 'clientèle': 0.0, 'clinique': 0.0, 'clip': 0.0, 'cliquer': 0.0, 'clé': 0.0, 'cm': 0.0, 'cnpi': 0.0, 'code': 0.0, 'coelio': 0.0, 'coelioscopie': 0.0, 'cohésion': 0.0, 'coin': 0.0, 'coincer': 0.0, 'coincé': 0.0, 'colle': 0.0, 'coller': 0.0, 'collègue': 0.0, 'colonne': 0.0, 'com': 0.0, 'combien': 0.0, 'combiné': 0.0, 'comm': 0.0, 'commande': 0.0, 'commander': 0.0, 'comme': 0.0, 'commencer': 0.0, 'comment': 0.0, 'commerce': 0.0, 'commercial': 0.0, 'commode': 0.0, 'communicant': 0.0, 'communication': 0.0, 'communiquer': 0.0, 'compacité': 0.0, 'compact': 0.0, 'compacter': 0.0, 'comparaison': 0.0, 'comparatif': 0.14295368158501306, 'comparer': 0.0, 'compartiment': 0.0, 'compatibilité': 0.0, 'compect': 0.0, 'compenser': 0.0, 'complet': 0.0, 'complexe': 0.0, 'complexer': 0.0, 'complexifier': 0.0, 'complexité': 0.0, 'compliquer': 0.0, 'compliqué': 0.0, 'complètement': 0.0, 'complémentaire': 0.0, 'compléter': 0.0, 'composant': 0.0, 'composer': 0.0, 'composition': 0.0, 'compote': 0.0, 'comprendre': 0.0, 'compresseur': 0.0, 'comprimé': 0.0, 'compréhension': 0.0, 'comptabilité': 0.0, 'comptable': 0.0, 'comptage': 0.0, 'compte': 0.0, 'compter': 0.0, 'compteur': 0.0, 'compulser': 0.0, 'compétence': 0.0, 'compétent': 0.0, 'compétitif': 0.0, 'concentrateur': 0.0, 'concentrer': 0.0, 'concept': 0.0, 'concepteur': 0.0, 'conception': 0.0, 'conceptuellement': 0.0, 'concernant': 0.0, 'concerner': 0.0, 'concertation': 0.0, 'concevoir': 0.0, 'concurrence': 0.0, 'condenseur': 0.0, 'condile': 0.0, 'condition': 0.0, 'conditionnement': 0.0, 'conditionner': 0.0, 'conducteur': 0.0, 'confiance': 0.0, 'confidentiel': 0.0, 'configurable': 0.0, 'configuration': 0.0, 'configurer': 0.0, 'confiner': 0.0, 'confirmer': 0.0, 'conforme': 0.0, 'confort': 0.0, 'confronter': 0.0, 'congélateur': 0.0, 'conjoint': 0.0, 'connaissance': 0.0, 'connaisseur': 0.0, 'connaître': 0.0, 'connectable': 0.0, 'connecter': 0.0, 'connectique': 0.0, 'connectivité': 0.0, 'connerie': 0.0, 'conscient': 0.0, 'conservation': 0.0, 'conserver': 0.0, 'considérable': 0.0, 'considérer': 0.0, 'consignation': 0.0, 'conso': 0.0, 'consommable': 0.0, 'consommateur': 0.0, 'consommation': 0.0, 'consommer': 0.0, 'constat': 0.0, 'constater': 0.0, 'constructeur': 0.0, 'construction': 0.0, 'construire': 0.0, 'constulation': 0.0, 'conséquence': 0.0, 'contaception': 0.0, 'contact': 0.0, 'contacteur': 0.0, 'content': 0.0, 'contenter': 0.0, 'contenu': 0.0, 'contexte': 0.0, 'continu': 0.0, 'continuer': 0.0, 'continuité': 0.0, 'contraceptif': 0.0, 'contraignant': 0.0, 'contrainte': 0.0, 'contraire': 0.0, 'contrat': 0.0, 'contre': 0.0, 'controllogix': 0.0, 'contrôle': 0.0, 'contrôler': 0.0, 'contrôleur': 0.0, 'convaincre': 0.0, 'convenable': 0.0, 'convenir': 0.0, 'convivial': 0.0, 'convivialité': 0.0, 'convoyeur': 0.0, 'cool': 0.0, 'coordination': 0.0, 'coordonner': 0.0, 'cordial': 0.0, 'corne': 0.0, 'corner': 0.0, 'corps': 0.0, 'correct': 0.0, 'correctement': 0.0, 'correspondre': 0.0, 'corriger': 0.0, 'corrosif': 0.0, 'corrosion': 0.0, 'costaud': 0.0, 'cotation': 0.0, 'cou': 0.0, 'couche': 0.0, 'coucher': 0.0, 'couillon': 0.0, 'couler': 0.0, 'couleur': 0.0, 'coulir': 0.0, 'coulissant': 0.0, 'coup': 0.0, 'coupe': 0.0, 'couper': 0.0, 'couple': 0.0, 'coupure': 0.0, 'courant': 0.0, 'courbe': 0.0, 'courir': 0.0, 'cours': 0.0, 'course': 0.0, 'court': 0.0, 'cout': 0.0, 'couteau': 0.0, 'couter': 0.0, 'couverture': 0.0, 'coût': 0.0, 'coûter': 0.0, 'cpe': 0.0, 'cpoté':
0.0, 'cracher': 0.0, 'crainte': 0.0, 'creux': 0.0, 'crise': 0.0, 'critique': 0.0, 'croire': 0.0, 'croiser': 0.0, 'cru': 0.0, 'crème': 0.0, 'créateur': 0.0, 'créatif': 0.0, 'crédible': 0.0, 'créer': 0.0, 'créneau': 0.0, 'cube': 0.0, 'cuillère':
0.0, 'cuire': 0.0, 'cuisine': 0.08837571390528075, 'cuisinella': 0.0, 'cuisinier': 0.0, 'cuisiniste': 0.0, 'cul': 0.0, 'cutané': 0.0, 'cutter': 0.0, 'cv': 0.0, 'cycle': 0.0, 'cylindre': 0.0, 'câblage': 0.0, 'câble': 0.0, 'câbler': 0.0, 'câbleur': 0.0, 'câblé': 0.0, 'célibataire': 0.0, 'côté': 0.0, 'cœur': 0.0, 'da': 0.0, 'dabord': 0.0, 'daccord': 0.0, 'dacia': 0.0, 'dahlander': 0.0, 'dame': 0.0, 'dangereux': 0.0, 'dans': 0.0, 'datacenter': 0.0, 'davantage': 0.0, 'ddi': 0.0, 'de': 0.07831962864753673, 'debout': 0.0, 'dedans': 0.0, 'degré': 0.0, 'dehors': 0.0, 'delà': 0.0, 'demain': 0.0, 'demande': 0.0, 'demander': 0.0, 'demi': 0.0, 'depuis': 0.0, 'dernier': 0.0, 'derrière': 0.0, 'descendre': 0.0, 'design': 0.0, 'desserrer': 0.0, 'dessin': 0.0, 'dessiner': 0.0, 'dessous': 0.0, 'dessus': 0.09267021850830469, 'destiner': 0.0, 'destructurer': 0.0, 'deux': 0.1767514278105615, 'deuxième': 0.0, 'devant': 0.0, 'devenir': 0.0, 'devoir': 0.0, 'dexterite': 0.0, 'dextérité': 0.0, 'dhumiditer': 0.0, 'diagnostic': 0.0, 'diagnostique': 0.0, 'diagnostiquer': 0.0, 'dialogue': 0.0, 'diapo': 0.0, 'diapositive': 0.0, 'dietrich': 0.0, 'difficile': 0.0, 'difficilement': 0.0, 'difficulté': 0.0, 'différemment': 0.0, 'différence': 0.0, 'différent': 0.0, 'différentiel': 0.0, 'dimension': 0.0, 'diminuer': 0.0, 'diminution': 0.0, 'dire': 0.15518724114760088, 'direct': 0.0, 'directement': 0.0, 'direction': 0.0, 'directrice': 0.0, 'dirper': 0.0, 'discret': 0.0, 'discuter': 0.0, 'disfonctionnement': 0.0, 'disjoncter': 0.0, 'disjoncteur': 0.0, 'disjonction': 0.0, 'disparaître': 0.0, 'dispenser': 0.0, 'disponible': 0.0, 'disposer': 0.0, 'dispositif': 0.0, 'disposition': 0.0, 'disque': 0.0, 'dissuader': 0.0, 'disséquer': 0.0, 'distal': 0.0, 'distance': 0.0, 'distribuer': 0.0, 'distributeur': 0.0, 'distribution': 0.0, 'divaguer': 0.0, 'diversifier': 0.0, 'diviser': 0.0, 'dix': 0.0, 'dmi': 0.0, 'dmr': 0.0, 'doc': 0.0, 'document': 0.0, 'doigt': 0.0, 'domaine': 0.0, 'dommage': 0.0, 'domotique': 0.0, 'donc': 0.05341883971923289, 'donner': 0.0, 'donnée': 0.0, 'dont': 0.0, 'dor': 0.0, 'dos': 0.0, 'dosage': 0.0, 'dose': 0.0, 'doser': 0.0, 'dossier': 0.0, 'double': 0.0, 'doubler': 0.0, 'doublon': 0.0, 'doucement': 0.0, 'douloureux': 0.0, 'doute': 0.0, 'droit': 0.0, 'droite': 0.0, 'drôle': 0.0, 'dsx': 0.0, 'du': 0.0806645867290536, 'dun': 0.0, 'dur': 0.0, 'durabilité': 0.0, 'durant': 0.0, 'durcire': 0.0, 'durer': 0.0, 'dvd': 0.0, 'dysfonctionnement': 0.0, 'dysfonctionner': 0.0, 'dès': 0.0, 'dé': 0.0, 'débarquer': 0.0, 'débarrasser': 0.0, 'débit': 0.0, 'déboiter': 0.0, 'débrider': 0.0, 'débrochable': 0.0, 'débrocher': 0.0, 'débrouiller': 0.0, 'début': 0.0, 'débutant': 0.0, 'décaler': 0.0, 'décider': 0.0, 'déclenchement': 0.0, 'déco': 0.0, 'décor': 0.0, 'découverte': 0.0, 'découvrir': 0.0, 'décrire': 0.0, 'dédier': 0.0, 'défaillance': 0.0, 'défaut': 0.0, 'défavorable': 0.0, 'défilé': 0.0, 'définir': 0.0, 'définitif': 0.0, 'dégager': 0.0, 'dégradation': 0.0, 'dégrader': 0.0, 'dégueulass': 0.0, 'dégénératif': 0.0, 'déjà': 0.0, 'délai': 0.0, 'délicat': 0.0, 'délivrer': 0.0, 'démarche': 0.0, 'démarrage': 0.0, 'démarrer': 0.0, 'démarreur': 0.0, 'dément': 0.0, 'démo': 0.0, 'démocratisation': 0.0, 'démonstration': 0.0, 'démonter': 0.0, 'dépannage': 0.0, 'dépanner': 0.0, 'départ': 0.0, 'dépasser': 0.0, 'dépendant': 0.0, 'dépendre': 0.0, 'dépenser': 0.0, 'déplacement': 0.0, 'déplacer': 0.0, 'déporter': 0.0, 'déporté': 0.0, 'déranger': 0.0, 'dérivation': 0.0, 'dérive': 0.0, 'déroulement': 0.0, 'désinhinber': 0.0, 'désuétude': 0.0, 'détail': 0.0, 'détailler': 0.0, 'détecter': 0.0, 'déterminer': 0.0, 'détriment': 0.0, 'développement': 0.0, 'développer': 0.0, 'déverser': 0.0, 'dévisser': 0.0, 'déçu': 0.0, 'eaton': 0.0, 'eau': 0.0, 'ecg': 0.0, 'effacer': 0.0, 'effectivement': 0.0, 'effectuer': 0.0, 'efficacité': 0.0, 'electrical': 0.0, 'emballage': 0.0, 'embarquer': 0.0, 'emblée': 0.0, 'embêter': 0.0, 'emmagasiner': 0.0, 'emmener': 0.0, 'emmerder': 0.0, 'empiler': 0.0, 'emploi': 0.0, 'employer': 0.0, 'employeur': 0.0, 'emporter': 0.0, 'empêcher': 0.0, 'en': 0.0, 'encadrer': 0.0, 'encastrable': 0.0, 'encastrement': 0.0, 'enclenchement': 0.0, 'enclencher': 0.0, 'encombrement': 0.0, 'encore': 0.0, 'encrassement': 0.0, 'encrasser': 0.0, 'end': 0.0, 'endo': 0.0, 'endocorporel': 0.0, 'endommager': 0.0, 'endoscopie': 0.0, 'endoscopique': 0.0, 'endroit': 0.0, 'enfant': 0.0, 'enfer': 0.0, 'enfin': 0.07631042395533352, 'enfoncer': 0.0, 'enlever': 0.0, 'ennuyer': 0.0, 'enregistrement': 0.0, 'enregistrer': 0.0, 'enrichir': 0.0, 'enrichissant': 0.0, 'enrichissement': 0.0, 'enroulement': 0.0, 'enseigne': 0.0, 'ensemble': 0.10538078499719479, 'ensuite': 0.0, 'entamer': 0.0, 'entendre': 0.0, 'entraide': 0.0, 'entraîner': 0.0, 'entre': 0.0, 'entreprise': 0.0, 'entrer': 0.0, 'entretenir': 0.0, 'entretien': 0.0, 'entrée': 0.0}
the objectif was to extract only word with middle tfidf score : not too high , and too small but since every words has 0.0; Is it normal ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论